利用 AI 实现多策略智能网页数据抓取（Web Scraper）

解决从复杂网页提取结构化数据的痛点：通过一套标准化的“侦察-策略-提取-验证”工作流，让 AI 能够自动识别页面类型，选择最合适的抓取方案并输出高质量的结构化数据。

为什么需要这个技能

传统的网页抓取需要针对每个网站编写复杂的 CSS 选择器或 XPath，一旦页面结构微调，脚本就会失效。此外，现代网页大量使用 JavaScript 渲染（SPA），简单的 curl 或 fetch 无法获取内容。

本技能通过 AI 的语义理解能力，将抓取过程抽象为多个阶段。它不仅能处理静态 HTML，还能自动识别并切换到浏览器自动化模式（Browser Automation）来应对动态页面，甚至能直接解析 JSON-LD 结构化数据，极大地降低了数据采集的门槛。

该技能遵循严格的七阶段线性执行流程，确保数据提取的准确性和完整性：

明确需求 (Clarify)：确认目标 URL、提取的具体字段、输出格式（Markdown/JSON/CSV）及是否需要翻页。
页面侦察 (Recon)：分析页面结构。判断是静态页面、JS 渲染页面还是 API 接口，并分类（如 table、product、faq 等模式）。
策略选择 (Strategy)：
- 策略 A (WebFetch)：适用于简单静态页。
- 策略 B (Browser)：适用于 JS 渲染或需要交互（如点击“加载更多”）的页面。
- 策略 C (Bash/Curl)：适用于直接调用隐藏 API 或下载 CSV 附件。
- 策略 E (Structured Data)：优先提取 JSON-LD 或 Microdata。
执行提取 (Extract)：根据选定模式（如 Pricing Mode 或 Jobs Mode）应用特定 prompt 提取数据。
数据转换 (Transform)：执行清洗操作，包括去除空白字符、解码 HTML 实体、日期标准化（ISO-8601）及去重。
质量验证 (Validate)：对比预期条数，检查空字段率，并给出置信度评分（HIGH/MEDIUM/LOW）。
格式交付 (Format)：按照用户要求的格式包装结果，包含来源、日期、记录数等元数据。

解压后将目录放入你的 AI 工具 skills 文件夹，重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。

暂无推荐