Skip to content

使用 Defuddle 提取网页纯净 Markdown 内容

解决 AI 处理网页时干扰信息过多的问题:利用 Defuddle CLI 剔除网页中的导航栏、广告等噪音,将网页转化为结构清晰的 Markdown 文本,在节省 Token 的同时提升分析精度。

为什么需要这个技能

当 AI 通过 WebFetch 等工具直接读取网页时,往往会抓取到大量的 HTML 标签、侧边栏链接、页眉页脚以及广告内容。这些“噪音”不仅浪费宝贵的 Context Window(上下文窗口),还可能干扰 AI 对正文内容的理解。

Defuddle 能够精准提取网页的核心正文,并将其转换为标准 Markdown 格式。这意味着 AI 可以直接阅读到干净的文章内容,从而在总结文档、分析博文或阅读在线 API 指南时获得更高的准确率。

适用场景

  • 在线文档分析:需要 AI 深入阅读长篇技术文档且希望避免干扰时。
  • 文章总结与研读:将博客、新闻或学术文章的 URL 交给 AI 进行精炼总结。
  • Token 敏感任务:在处理大量网页数据且需要严格控制 Token 消耗的场景。
  • 构建知识库:将网页内容快速转化为适合存储在 Notion 或 Obsidian 中的 Markdown 格式。

核心工作流

  1. 环境准备:确保安装了 Defuddle CLI 命令行工具。
    bash
    npm install -g defuddle
  2. 提取 Markdown 内容:使用 --md 参数将指定 URL 的内容转换为 Markdown。
    bash
    defuddle parse <url> --md
  3. 保存到本地文件:如果内容较长,可直接输出到文件。
    bash
    defuddle parse <url> --md -o content.md
  4. 提取特定元数据:通过 -p 参数获取标题、描述或域名等特定属性。
    bash
    defuddle parse <url> -p title
    defuddle parse <url> -p description

下载和安装

下载 defuddle 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐