如何自动化采集巴西 27 个州商业登记局的拍卖师数据

本技能提供了一套多州兼容的爬虫系统,能够自动从巴西 27 个州的商业登记局(Juntas Comerciais)采集官方拍卖师信息,并将其持久化到 SQLite 数据库,通过 FastAPI 提供 API 访问。

为什么需要这个技能

在巴西,拍卖师(Leiloeiros)的注册信息分散在各州的商业登记局(如 JUCESP, JUCERJA 等)中,缺乏统一的全国性数据库。手动查询 27 个不同的政府网站不仅极其低效,且数据格式不统一。

该技能通过构建一套基于抽象基类的多州爬虫矩阵,将复杂的网页解析过程标准化,实现了从“分散的网页”到“结构化 API”的转换,极大地降低了巴西拍卖市场数据的获取门槛。

适用场景

  • 需要快速构建巴西全国拍卖师名录。
  • 法律或金融研究人员需要验证特定拍卖师的执业状态。
  • 需要将巴西商业登记数据集成到第三方 CRM 或分析平台中。
  • 构建基于地理位置的拍卖师筛选工具。

核心工作流

  1. 环境初始化:安装依赖并配置 Playwright 以支持需要 JavaScript 渲染的动态网页。
  2. 数据采集:运行 run_all.py 编排器。系统会根据 states.py 中的注册表,调用特定的州级爬虫(如 jucesp.py)或通用爬虫。
  3. 持久化存储:采集到的数据自动进入本地 SQLite 数据库 leiloeiros.db,确保数据可追溯且易于查询。
  4. 数据消费
    • API 模式:启动 FastAPI 服务,通过 GET /leiloeiros?estado=SP 等端点实时查询。
    • 导出模式:使用 export.py 将结果导出为 CSV 或 JSON 格式。
    • 代码模式:直接在 Python 中调用 Database 类进行二次开发。

下载和安装

下载 junta-leiloeiros 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐