利用 AI 实现多策略智能网页数据抓取(Web Scraper)
解决从复杂网页提取结构化数据的痛点:通过一套标准化的“侦察-策略-提取-验证”工作流,让 AI 能够自动识别页面类型,选择最合适的抓取方案并输出高质量的结构化数据。
为什么需要这个技能
传统的网页抓取需要针对每个网站编写复杂的 CSS 选择器或 XPath,一旦页面结构微调,脚本就会失效。此外,现代网页大量使用 JavaScript 渲染(SPA),简单的 curl 或 fetch 无法获取内容。
本技能通过 AI 的语义理解能力,将抓取过程抽象为多个阶段。它不仅能处理静态 HTML,还能自动识别并切换到浏览器自动化模式(Browser Automation)来应对动态页面,甚至能直接解析 JSON-LD 结构化数据,极大地降低了数据采集的门槛。
适用场景
- 竞品分析:自动抓取多个电商平台的商品价格、规格并生成对比表。
- 线索收集:从公司团队页或目录页提取联系人姓名、职位和邮箱。
- 内容汇总:将新闻站点、博客的标题、作者及摘要提取为结构化列表。
- 动态监控:监控 SaaS 产品的定价页面,检测价格变动(Diff 模式)。
- 招聘聚合:从多个招聘渠道抓取岗位名称、薪资及要求。
核心工作流
该技能遵循严格的七阶段线性执行流程,确保数据提取的准确性和完整性:
- 明确需求 (Clarify):确认目标 URL、提取的具体字段、输出格式(Markdown/JSON/CSV)及是否需要翻页。
- 页面侦察 (Recon):分析页面结构。判断是静态页面、JS 渲染页面还是 API 接口,并分类(如
table、product、faq等模式)。 - 策略选择 (Strategy):
- 策略 A (WebFetch):适用于简单静态页。
- 策略 B (Browser):适用于 JS 渲染或需要交互(如点击“加载更多”)的页面。
- 策略 C (Bash/Curl):适用于直接调用隐藏 API 或下载 CSV 附件。
- 策略 E (Structured Data):优先提取 JSON-LD 或 Microdata。
- 执行提取 (Extract):根据选定模式(如
Pricing Mode或Jobs Mode)应用特定 prompt 提取数据。 - 数据转换 (Transform):执行清洗操作,包括去除空白字符、解码 HTML 实体、日期标准化(ISO-8601)及去重。
- 质量验证 (Validate):对比预期条数,检查空字段率,并给出置信度评分(HIGH/MEDIUM/LOW)。
- 格式交付 (Format):按照用户要求的格式包装结果,包含来源、日期、记录数等元数据。
下载和安装
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐