将 YouTube 视频字幕自动导入 Markdown 知识库

解决视频知识难以检索的痛点:将 YouTube 视频的字幕提取并清洗为纯文本 Markdown 笔记,使其成为可查询的“类型化记忆”,供 AI 进行知识提取、行动项分析或内容重构。

为什么需要这个技能

观看视频学习时,关键信息碎片化且难以快速定位。虽然 YouTube 提供字幕,但直接在网页端浏览不方便做笔记,也无法与个人知识库(Vault)联动。

本技能通过调用 yt-dlp 自动化地完成“提取字幕 清洗时间戳 注入元数据 生成 Markdown”的完整流程。它将视频内容从不可检索的流媒体转变为可搜索、可链接的文档,为后续使用 AI 构建知识图谱或撰写总结提供高质量的语料基础。

适用场景

  • 需要将某个技术讲座、播客或 Keynote 的完整内容同步到 Obsidian/Logseq 等知识库中。
  • 给 AI 提供视频全文,要求其生成深度总结或提取方法论。
  • 批量采集特定领域的视频见解,构建个人主题研究库。

核心工作流

  1. URL 解析与依赖检查:接收 YouTube 链接,验证本地是否安装 yt-dlp
  2. 字幕优先级筛选:优先下载由上传者提供的“手动字幕”(含标点和说话人),若无则选用“自动生成字幕”。
  3. 文本清洗:剔除 VTT 格式的时间戳标记,合并重复行,将字幕转换为流畅的段落文本。
  4. 元数据注入:抓取视频标题、频道、上传日期、时长等信息,构建标准的 YAML Frontmatter。
  5. 自动化分拣:根据频道名称自动创建文件夹路径,并将文件保存为 YYYY-MM-DD-视频名.md
  6. 触发点扫描:自动检测文本中的关键词(如 “framework”, “principle”, “case study”),在 Meta/Captures 目录下创建种子文件,方便后续回顾。

下载和安装

下载 ingest-youtube 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。

依赖安装:

# macOS
brew install yt-dlp
# 其他系统
pip3 install --user yt-dlp

调用示例:

python3 ingest.py <youtube-url> [--vault <path>] [--lang <code>]

你可能还需要

暂无推荐