如何使用 Azure AI Text Analytics 实现高效文本分析

通过集成 Azure AI Language 服务的 Python SDK,快速实现文本情感分析、关键短语提取、个人隐私信息(PII)识别以及医疗领域专业文本分析。

为什么需要这个技能

在处理海量文本数据时,手动分析情绪或提取关键信息效率极低且主观性强。开发者需要一种稳定且工业级的 NLP 工具来标准化地处理自然语言。

Azure AI Text Analytics 提供了预训练的模型,能够快速识别文本中的情感倾向(正向/负向/中立)、提取命名实体(人名、地名、组织机构)以及自动掩盖敏感的个人隐私信息。对于医疗行业,它还支持专门的医疗实体识别,能够将非结构化病例转化为结构化数据。

适用场景

  • 客户反馈分析:自动分析产品评价的情感倾向,并利用“观点挖掘”定位具体不满意的功能点。
  • 数据合规脱敏:在存储或传输文本前,自动检测并遮蔽身份证号、邮箱等 PII 敏感信息。
  • 内容自动化标签:从长文章中提取关键短语(Key Phrases),用于生成索引或标签。
  • 医疗记录数字化:分析医疗文本,提取药物名称、症状并链接到标准医学术语库(UMLS)。

核心工作流

  1. 环境准备:安装 azure-ai-textanalytics 库,并配置 AZURE_LANGUAGE_ENDPOINTAZURE_LANGUAGE_KEY 环境变量。
  2. 客户端实例化:使用 TextAnalyticsClient 初始化,建议在生产环境下使用 DefaultAzureCredential 进行身份验证。
  3. 执行分析任务
    • 单项分析:调用 analyze_sentimentrecognize_entities 等方法处理单个或少量文档。
    • 批量处理:使用 begin_analyze_actions 将多个分析动作(如同时进行情感分析和实体识别)封装在一次请求中。
    • 异步处理:对于高吞吐量场景,使用 azure.ai.textanalytics.aio 异步客户端。
  4. 结果解析:遍历返回结果,检查 is_error 状态,提取置信度分数(Confidence Scores)和实体分类。
# 快速示例:情感分析与观点挖掘
from azure.ai.textanalytics import TextAnalyticsClient
from azure.core.credentials import AzureKeyCredential

client = TextAnalyticsClient(endpoint=endpoint, credential=AzureKeyCredential(key))
documents = ["The food was terrible and the service was slow."]
result = client.analyze_sentiment(documents, show_opinion_mining=True)

for doc in result:
    print(f"Sentiment: {doc.sentiment}")
    for sentence in doc.sentences:
        for opinion in sentence.mined_opinions:
            print(f"Target: {opinion.target.text} -> {opinion.target.sentiment}")

下载和安装

下载 azure-ai-textanalytics-py 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐