Appearance
使用 Defuddle 提取网页纯净 Markdown 内容
解决 AI 处理网页时干扰信息过多的问题:利用 Defuddle CLI 剔除网页中的导航栏、广告等噪音,将网页转化为结构清晰的 Markdown 文本,在节省 Token 的同时提升分析精度。
为什么需要这个技能
当 AI 通过 WebFetch 等工具直接读取网页时,往往会抓取到大量的 HTML 标签、侧边栏链接、页眉页脚以及广告内容。这些“噪音”不仅浪费宝贵的 Context Window(上下文窗口),还可能干扰 AI 对正文内容的理解。
Defuddle 能够精准提取网页的核心正文,并将其转换为标准 Markdown 格式。这意味着 AI 可以直接阅读到干净的文章内容,从而在总结文档、分析博文或阅读在线 API 指南时获得更高的准确率。
适用场景
- 在线文档分析:需要 AI 深入阅读长篇技术文档且希望避免干扰时。
- 文章总结与研读:将博客、新闻或学术文章的 URL 交给 AI 进行精炼总结。
- Token 敏感任务:在处理大量网页数据且需要严格控制 Token 消耗的场景。
- 构建知识库:将网页内容快速转化为适合存储在 Notion 或 Obsidian 中的 Markdown 格式。
核心工作流
- 环境准备:确保安装了 Defuddle CLI 命令行工具。bash
npm install -g defuddle - 提取 Markdown 内容:使用
--md参数将指定 URL 的内容转换为 Markdown。bashdefuddle parse <url> --md - 保存到本地文件:如果内容较长,可直接输出到文件。bash
defuddle parse <url> --md -o content.md - 提取特定元数据:通过
-p参数获取标题、描述或域名等特定属性。bashdefuddle parse <url> -p title defuddle parse <url> -p description
下载和安装
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐