Skip to content

如何使用 Azure AI Vision 实现图像分析与 OCR 识别

通过集成 Azure AI Vision 4.0 SDK,开发者可以快速实现对图像内容的深度理解,包括自动生成描述、提取图片文字(OCR)、识别物体位置以及智能计算裁剪区域。

为什么需要这个技能

在构建需要“理解”视觉内容的软件时,手动处理图像像素几乎不可能。开发者需要一种成熟的 API 来将图像转化为结构化数据。

Azure AI Vision 提供了工业级的视觉能力。无论是需要为电商平台自动生成商品描述、从扫描件中提取文字,还是为社交应用实现智能头像裁剪,该 SDK 都能通过简单的 Python 调用完成复杂算法的推理,避免了自行训练和部署深度学习模型的巨大成本。

适用场景

  • 自动化内容审核:自动为上传的图片打标签(Tags)并生成简短描述(Caption)。
  • 文档数字化:利用 OCR(READ)功能将图片中的打印文本转换为可编辑的字符串。
  • 智能媒体处理:使用智能裁剪(Smart Cropping)功能,根据图像内容自动计算最合适的缩略图比例。
  • 场景分析:检测图片中出现的人员数量及其位置,或识别特定物体及其边界框(Bounding Box)。

核心工作流

  1. 环境配置:安装 azure-ai-vision-imageanalysis 库并配置 VISION_ENDPOINTVISION_KEY 环境变量。
  2. 客户端实例化:根据安全需求选择 API Key 或 Entra ID(推荐)进行身份验证。
  3. 定义分析维度:通过 VisualFeatures 指定需要提取的特征(如 CAPTION 描述、READ 文本、OBJECTS 目标检测)。
  4. 提交分析请求:支持通过图片 URL (analyze_from_url) 或本地二进制流 (analyze) 提交图像。
  5. 解析结构化结果:从返回结果中提取文本、置信度(Confidence)及坐标信息。
python
# 快速示例:分析 URL 图像并提取描述与标签
from azure.ai.vision.imageanalysis import ImageAnalysisClient
from azure.ai.vision.imageanalysis.models import VisualFeatures
from azure.core.credentials import AzureKeyCredential
import os

client = ImageAnalysisClient(
    endpoint=os.environ["VISION_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["VISION_KEY"])
)

result = client.analyze_from_url(
    image_url="https://example.com/image.jpg",
    visual_features=[VisualFeatures.CAPTION, VisualFeatures.TAGS]
)

if result.caption:
    print(f"描述: {result.caption.text}")

下载和安装

下载 azure-ai-vision-imageanalysis-py 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐