使用 Biopython 进行生物信息学计算与序列分析

通过 Biopython 为 AI 赋予生物计算能力，使其能够高效处理生物序列文件、调用 NCBI 数据库、分析蛋白质结构以及构建进化树。

为什么需要这个技能

在生命科学研究中，处理基因组、蛋白质序列或结构数据通常面临文件格式复杂（如 FASTA, GenBank, PDB）、数据量巨大且需要频繁调用远程生物数据库等挑战。

Biopython 是一套标准化的 Python 工具集，它将复杂的生物计算任务模块化。掌握此技能后，AI 可以帮你自动完成序列的转录、翻译、GC 含量计算，甚至直接通过程序从 NCBI 下载数据并运行 BLAST 比对，极大地提升科研数据处理的自动化程度。

安装 Biopython 及其依赖 NumPy：

uv pip install biopython

若涉及 NCBI 数据库访问，必须配置邮箱以符合 NCBI 规定：

from Bio import Entrez
Entrez.email = "your.email@example.com"

序列处理 (Bio.SeqIO)：使用迭代器处理大文件，避免内存溢出。

from Bio import SeqIO
for record in SeqIO.parse("sequences.fasta", "fasta"):
    print(f"{record.id}: {len(record.seq)} bp")

数据库操作 (Bio.Entrez)：搜索并下载特定记录。

handle = Entrez.esearch(db="pubmed", term="biopython", retmax=10)
results = Entrez.read(handle)

结构解析 (Bio.PDB)：通过 SMCRA 层级结构（Structure $\to$ Model $\to$ Chain $\to$ Residue $\to$ Atom）导航蛋白质结构。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐