站长自营 API 中转

正在比较模型套餐?可以把多个 AI API 接到一个网关里

ZZSwitch 是我自己运营的统一 API 网关,适合需要国内支付、兑换码充值、多模型切换和 OpenAI 兼容接口的开发者。不是 OpenCode 官方服务。

利用 AI 实现多策略智能网页数据抓取(Web Scraper)

解决从复杂网页提取结构化数据的痛点:通过一套标准化的“侦察-策略-提取-验证”工作流,让 AI 能够自动识别页面类型,选择最合适的抓取方案并输出高质量的结构化数据。

为什么需要这个技能

传统的网页抓取需要针对每个网站编写复杂的 CSS 选择器或 XPath,一旦页面结构微调,脚本就会失效。此外,现代网页大量使用 JavaScript 渲染(SPA),简单的 curlfetch 无法获取内容。

本技能通过 AI 的语义理解能力,将抓取过程抽象为多个阶段。它不仅能处理静态 HTML,还能自动识别并切换到浏览器自动化模式(Browser Automation)来应对动态页面,甚至能直接解析 JSON-LD 结构化数据,极大地降低了数据采集的门槛。

适用场景

  • 竞品分析:自动抓取多个电商平台的商品价格、规格并生成对比表。
  • 线索收集:从公司团队页或目录页提取联系人姓名、职位和邮箱。
  • 内容汇总:将新闻站点、博客的标题、作者及摘要提取为结构化列表。
  • 动态监控:监控 SaaS 产品的定价页面,检测价格变动(Diff 模式)。
  • 招聘聚合:从多个招聘渠道抓取岗位名称、薪资及要求。

核心工作流

该技能遵循严格的七阶段线性执行流程,确保数据提取的准确性和完整性:

  1. 明确需求 (Clarify):确认目标 URL、提取的具体字段、输出格式(Markdown/JSON/CSV)及是否需要翻页。
  2. 页面侦察 (Recon):分析页面结构。判断是静态页面、JS 渲染页面还是 API 接口,并分类(如 tableproductfaq 等模式)。
  3. 策略选择 (Strategy)
    • 策略 A (WebFetch):适用于简单静态页。
    • 策略 B (Browser):适用于 JS 渲染或需要交互(如点击“加载更多”)的页面。
    • 策略 C (Bash/Curl):适用于直接调用隐藏 API 或下载 CSV 附件。
    • 策略 E (Structured Data):优先提取 JSON-LD 或 Microdata。
  4. 执行提取 (Extract):根据选定模式(如 Pricing ModeJobs Mode)应用特定 prompt 提取数据。
  5. 数据转换 (Transform):执行清洗操作,包括去除空白字符、解码 HTML 实体、日期标准化(ISO-8601)及去重。
  6. 质量验证 (Validate):对比预期条数,检查空字段率,并给出置信度评分(HIGH/MEDIUM/LOW)。
  7. 格式交付 (Format):按照用户要求的格式包装结果,包含来源、日期、记录数等元数据。

下载和安装

下载 web-scraper 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐

站长自营 API 中转

ZZSwitch API 中转

统一接入多家模型,支持兑换码充值。

打开 ZZSwitch