如何自动化采集巴西 27 个州商业登记局的拍卖师数据
本技能提供了一套多州兼容的爬虫系统,能够自动从巴西 27 个州的商业登记局(Juntas Comerciais)采集官方拍卖师信息,并将其持久化到 SQLite 数据库,通过 FastAPI 提供 API 访问。
为什么需要这个技能
在巴西,拍卖师(Leiloeiros)的注册信息分散在各州的商业登记局(如 JUCESP, JUCERJA 等)中,缺乏统一的全国性数据库。手动查询 27 个不同的政府网站不仅极其低效,且数据格式不统一。
该技能通过构建一套基于抽象基类的多州爬虫矩阵,将复杂的网页解析过程标准化,实现了从“分散的网页”到“结构化 API”的转换,极大地降低了巴西拍卖市场数据的获取门槛。
适用场景
- 需要快速构建巴西全国拍卖师名录。
- 法律或金融研究人员需要验证特定拍卖师的执业状态。
- 需要将巴西商业登记数据集成到第三方 CRM 或分析平台中。
- 构建基于地理位置的拍卖师筛选工具。
核心工作流
- 环境初始化:安装依赖并配置 Playwright 以支持需要 JavaScript 渲染的动态网页。
- 数据采集:运行
run_all.py编排器。系统会根据states.py中的注册表,调用特定的州级爬虫(如jucesp.py)或通用爬虫。 - 持久化存储:采集到的数据自动进入本地 SQLite 数据库
leiloeiros.db,确保数据可追溯且易于查询。 - 数据消费:
- API 模式:启动 FastAPI 服务,通过
GET /leiloeiros?estado=SP等端点实时查询。 - 导出模式:使用
export.py将结果导出为 CSV 或 JSON 格式。 - 代码模式:直接在 Python 中调用
Database类进行二次开发。
- API 模式:启动 FastAPI 服务,通过
下载和安装
下载 junta-leiloeiros 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐