如何使用 AI 调用 UniProt 数据库获取蛋白质序列和功能信息
解决生物信息学数据获取痛点:通过 AI 自动化调用 UniProt REST API,快速实现蛋白质信息的精准搜索、序列下载及跨数据库 ID 转换,无需手动在网页端重复操作。
为什么需要这个技能
UniProt 是全球最权威的蛋白质序列和功能信息资源库。但在处理大规模蛋白质数据集时,手动在网页端搜索并下载 FASTA 文件效率极低。
本技能使 AI 能够直接通过 REST API 与 UniProt 交互。无论是通过基因名称、访问号(Accession)定位蛋白质,还是将 UniProt ID 转换为 PDB 或 Ensembl ID,都可以通过结构化的 API 请求一键完成,极大地加速了蛋白质分析和生物信息学管线的构建。
适用场景
- 精准检索:根据基因符号(Gene Symbol)、物种或蛋白质名称快速查找条目。
- 序列提取:批量获取 FASTA 格式的氨基酸序列用于下游分析。
- ID 转换:在 UniProt 与外部数据库(如 RefSeq, AlphaFoldDB, KEGG)之间进行标识符映射。
- 功能挖掘:自动提取 GO 术语、结构域(Domains)和功能描述等注释信息。
- 大规模下载:利用 Stream 接口流式传输大型蛋白质数据集。
核心工作流
1. 构建搜索查询
利用 UniProt 的结构化查询语法。例如,搜索人类胰岛素且经过人工审核的条目:
# 搜索语法示例
query = "insulin AND organism_name:\"Homo sapiens\" AND reviewed:true"
# API 接口:https://rest.uniprot.org/uniprotkb/search?query={query}&format=json
2. 蛋白质条目获取
通过 Accession 编号直接访问特定条目:
- 经典格式:
P12345 - 扩展格式:
A0A022YWF9 - 接口示例:
https://rest.uniprot.org/uniprotkb/P12345.fasta
3. ID 映射工作流
当需要跨数据库转换 ID 时,遵循以下异步流程:
- 提交任务
https://rest.uniprot.org/idmapping/run - 检查状态
https://rest.uniprot.org/idmapping/status/{jobId} - 获取结果
https://rest.uniprot.org/idmapping/results/{jobId}
4. 字段自定义与流式传输
为了减少带宽开销,通过 fields 参数仅请求所需字段(如 accession, sequence, gene_names),并针对超大数据集使用 /stream 接口。
下载和安装
下载 uniprot-database 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐