Skip to content

使用 .NET 开发 Azure AI 文档智能自动化提取方案

解决非结构化文档处理难题:通过集成 Azure AI Document Intelligence SDK,让 .NET 程序能够自动识别并提取发票、收据、身份证及自定义表单中的关键信息。

为什么需要这个技能

在企业数字化转型中,处理海量 PDF 或扫描件是一项沉重的工作。传统的 OCR 仅能识别文字,无法理解文档的语义结构(例如:哪个数字是“总计”,哪个是“供应商名称”)。

Azure AI Document Intelligence 提供了预构建模型和自定义训练能力,可以将杂乱的文档直接转换为结构化的 JSON 数据。通过 .NET SDK,开发者可以快速将这种能力集成到自动化审批流、财务对账或身份验证系统中,无需自己训练复杂的深度学习模型。

适用场景

  • 财务自动化:自动解析供应商发票(Invoice)或收据(Receipt),提取金额和日期。
  • 政务/合规审核:从身份证、护照等 ID 证件中提取关键个人信息。
  • 文档数字化:将复杂的 PDF 表格、布局结构化,转换为数据库可存储的格式。
  • 自定义文档分类:针对特定行业的私有表单训练识别模型,并实现自动分类。

核心工作流

1. 环境准备与认证

安装必要的 NuGet 包:

bash
dotnet add package Azure.AI.DocumentIntelligence
dotnet add package Azure.Identity

推荐使用 DefaultAzureCredential(Entra ID)进行生产环境认证,确保安全性。

2. 选择模型进行分析

根据需求选择预构建模型(如 prebuilt-invoice)或自定义模型 ID,调用 AnalyzeDocumentAsync 方法。

csharp
using Azure.AI.DocumentIntelligence;

Uri invoiceUri = new Uri("https://example.com/invoice.pdf");
Operation<AnalyzeResult> operation = await client.AnalyzeDocumentAsync(
    WaitUntil.Completed, 
    "prebuilt-invoice", 
    invoiceUri);

AnalyzeResult result = operation.Value;

3. 提取与验证数据

遍历 AnalyzedDocument 中的 Fields 字典,根据字段类型(String, Currency, Date 等)提取值,并检查 Confidence(置信度)以决定是否需要人工复核。

4. 模型管理(进阶)

使用 DocumentIntelligenceAdministrationClient 构建自定义模型或文档分类器,将存储在 Azure Blob Storage 中的样本数据用于训练。

下载和安装

下载 azure-ai-document-intelligence-dotnet 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐