Skip to content

使用 Azure AI Document Intelligence 实现文档结构化数据提取

解决非结构化文档处理痛点:通过调用 Azure AI 文档智能服务,将发票、收据、身份证等扫描件或 PDF 转换为机器可读的 JSON 结构化数据。

为什么需要这个技能

在企业数字化流程中,大量信息仍以 PDF 或图像形式存在。传统的 OCR 只能提取纯文本,无法理解文档的语义结构(例如:哪个数值是“总金额”,哪个是“供应商名称”)。

Azure AI Document Intelligence 提供了预构建的模型,能够自动识别文档布局并提取关键字段。使用该 TypeScript SDK,开发者可以将复杂的文档解析过程简化为一次 API 调用,从而快速构建自动报销系统、合同审查工具或身份验证工作流。

适用场景

  • 自动化财务处理:自动从发票(Invoice)或收据(Receipt)中提取金额、日期和商户信息。
  • 证件数字化:快速解析身份证、护照等 ID 文件的关键字段。
  • 复杂表格解析:从 PDF 文档中提取跨页的表格数据并保持其结构。
  • 自定义文档分类:训练自定义模型来区分不同类型的企业内部表单。

核心工作流

1. 环境配置与初始化

安装核心依赖并配置资源端点与 API 密钥。

bash
npm install @azure-rest/ai-document-intelligence @azure/identity
typescript
import DocumentIntelligence from "@azure-rest/ai-document-intelligence";

const client = DocumentIntelligence(
  process.env.DOCUMENT_INTELLIGENCE_ENDPOINT!,
  { key: process.env.DOCUMENT_INTELLIGENCE_API_KEY! }
);

2. 文档分析模式

由于文档分析是异步操作,必须采用 getLongRunningPoller 轮询模式:

  • 提交任务:调用 .post() 发送文档 URL 或 Base64 编码的文件。
  • 错误校验:使用 isUnexpected() 确保请求成功。
  • 结果轮询:通过 pollUntilDone() 等待 AI 处理完成并获取最终结构化结果。

3. 模型选择

根据需求选择合适的 modelId

  • prebuilt-layout:提取文本、表格和结构。
  • prebuilt-invoice / prebuilt-receipt:提取财务票据关键字段。
  • prebuilt-idDocument:提取证件信息。

下载和安装

下载 azure-ai-document-intelligence-ts 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐