如何使用 AI 调用 UniProt 数据库获取蛋白质序列和功能信息

解决生物信息学数据获取痛点：通过 AI 自动化调用 UniProt REST API，快速实现蛋白质信息的精准搜索、序列下载及跨数据库 ID 转换，无需手动在网页端重复操作。

为什么需要这个技能

UniProt 是全球最权威的蛋白质序列和功能信息资源库。但在处理大规模蛋白质数据集时，手动在网页端搜索并下载 FASTA 文件效率极低。

本技能使 AI 能够直接通过 REST API 与 UniProt 交互。无论是通过基因名称、访问号（Accession）定位蛋白质，还是将 UniProt ID 转换为 PDB 或 Ensembl ID，都可以通过结构化的 API 请求一键完成，极大地加速了蛋白质分析和生物信息学管线的构建。

适用场景

精准检索：根据基因符号（Gene Symbol）、物种或蛋白质名称快速查找条目。
序列提取：批量获取 FASTA 格式的氨基酸序列用于下游分析。
ID 转换：在 UniProt 与外部数据库（如 RefSeq, AlphaFoldDB, KEGG）之间进行标识符映射。
功能挖掘：自动提取 GO 术语、结构域（Domains）和功能描述等注释信息。
大规模下载：利用 Stream 接口流式传输大型蛋白质数据集。

核心工作流

1. 构建搜索查询

利用 UniProt 的结构化查询语法。例如，搜索人类胰岛素且经过人工审核的条目：

# 搜索语法示例
query = "insulin AND organism_name:\"Homo sapiens\" AND reviewed:true"
# API 接口：https://rest.uniprot.org/uniprotkb/search?query={query}&format=json

2. 蛋白质条目获取

通过 Accession 编号直接访问特定条目：

经典格式：P12345
扩展格式：A0A022YWF9
接口示例：https://rest.uniprot.org/uniprotkb/P12345.fasta

3. ID 映射工作流

当需要跨数据库转换 ID 时，遵循以下异步流程：

提交任务 $\to$ https://rest.uniprot.org/idmapping/run
检查状态 $\to$ https://rest.uniprot.org/idmapping/status/{jobId}
获取结果 $\to$ https://rest.uniprot.org/idmapping/results/{jobId}

4. 字段自定义与流式传输

为了减少带宽开销，通过 fields 参数仅请求所需字段（如 accession, sequence, gene_names），并针对超大数据集使用 /stream 接口。

下载和安装

下载 uniprot-database 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

你可能还需要

暂无推荐

如何使用 AI 调用 UniProt 数据库获取蛋白质序列和功能信息 #

为什么需要这个技能 #

适用场景 #

核心工作流 #

1. 构建搜索查询 #

2. 蛋白质条目获取 #

3. ID 映射工作流 #

4. 字段自定义与流式传输 #

下载和安装 #

你可能还需要 #