如何使用 AI 调用 UniProt 数据库获取蛋白质序列和功能信息

解决生物信息学数据获取痛点:通过 AI 自动化调用 UniProt REST API,快速实现蛋白质信息的精准搜索、序列下载及跨数据库 ID 转换,无需手动在网页端重复操作。

为什么需要这个技能

UniProt 是全球最权威的蛋白质序列和功能信息资源库。但在处理大规模蛋白质数据集时,手动在网页端搜索并下载 FASTA 文件效率极低。

本技能使 AI 能够直接通过 REST API 与 UniProt 交互。无论是通过基因名称、访问号(Accession)定位蛋白质,还是将 UniProt ID 转换为 PDB 或 Ensembl ID,都可以通过结构化的 API 请求一键完成,极大地加速了蛋白质分析和生物信息学管线的构建。

适用场景

  • 精准检索:根据基因符号(Gene Symbol)、物种或蛋白质名称快速查找条目。
  • 序列提取:批量获取 FASTA 格式的氨基酸序列用于下游分析。
  • ID 转换:在 UniProt 与外部数据库(如 RefSeq, AlphaFoldDB, KEGG)之间进行标识符映射。
  • 功能挖掘:自动提取 GO 术语、结构域(Domains)和功能描述等注释信息。
  • 大规模下载:利用 Stream 接口流式传输大型蛋白质数据集。

核心工作流

1. 构建搜索查询

利用 UniProt 的结构化查询语法。例如,搜索人类胰岛素且经过人工审核的条目:

# 搜索语法示例
query = "insulin AND organism_name:\"Homo sapiens\" AND reviewed:true"
# API 接口:https://rest.uniprot.org/uniprotkb/search?query={query}&format=json

2. 蛋白质条目获取

通过 Accession 编号直接访问特定条目:

  • 经典格式:P12345
  • 扩展格式:A0A022YWF9
  • 接口示例:https://rest.uniprot.org/uniprotkb/P12345.fasta

3. ID 映射工作流

当需要跨数据库转换 ID 时,遵循以下异步流程:

  • 提交任务 https://rest.uniprot.org/idmapping/run
  • 检查状态 https://rest.uniprot.org/idmapping/status/{jobId}
  • 获取结果 https://rest.uniprot.org/idmapping/results/{jobId}

4. 字段自定义与流式传输

为了减少带宽开销,通过 fields 参数仅请求所需字段(如 accession, sequence, gene_names),并针对超大数据集使用 /stream 接口。

下载和安装

下载 uniprot-database 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐