如何使用 Azure AI Text Analytics 实现高效文本分析
通过集成 Azure AI Language 服务的 Python SDK,快速实现文本情感分析、关键短语提取、个人隐私信息(PII)识别以及医疗领域专业文本分析。
为什么需要这个技能
在处理海量文本数据时,手动分析情绪或提取关键信息效率极低且主观性强。开发者需要一种稳定且工业级的 NLP 工具来标准化地处理自然语言。
Azure AI Text Analytics 提供了预训练的模型,能够快速识别文本中的情感倾向(正向/负向/中立)、提取命名实体(人名、地名、组织机构)以及自动掩盖敏感的个人隐私信息。对于医疗行业,它还支持专门的医疗实体识别,能够将非结构化病例转化为结构化数据。
适用场景
- 客户反馈分析:自动分析产品评价的情感倾向,并利用“观点挖掘”定位具体不满意的功能点。
- 数据合规脱敏:在存储或传输文本前,自动检测并遮蔽身份证号、邮箱等 PII 敏感信息。
- 内容自动化标签:从长文章中提取关键短语(Key Phrases),用于生成索引或标签。
- 医疗记录数字化:分析医疗文本,提取药物名称、症状并链接到标准医学术语库(UMLS)。
核心工作流
- 环境准备:安装
azure-ai-textanalytics库,并配置AZURE_LANGUAGE_ENDPOINT和AZURE_LANGUAGE_KEY环境变量。 - 客户端实例化:使用
TextAnalyticsClient初始化,建议在生产环境下使用DefaultAzureCredential进行身份验证。 - 执行分析任务:
- 单项分析:调用
analyze_sentiment或recognize_entities等方法处理单个或少量文档。 - 批量处理:使用
begin_analyze_actions将多个分析动作(如同时进行情感分析和实体识别)封装在一次请求中。 - 异步处理:对于高吞吐量场景,使用
azure.ai.textanalytics.aio异步客户端。
- 单项分析:调用
- 结果解析:遍历返回结果,检查
is_error状态,提取置信度分数(Confidence Scores)和实体分类。
# 快速示例:情感分析与观点挖掘
from azure.ai.textanalytics import TextAnalyticsClient
from azure.core.credentials import AzureKeyCredential
client = TextAnalyticsClient(endpoint=endpoint, credential=AzureKeyCredential(key))
documents = ["The food was terrible and the service was slow."]
result = client.analyze_sentiment(documents, show_opinion_mining=True)
for doc in result:
print(f"Sentiment: {doc.sentiment}")
for sentence in doc.sentences:
for opinion in sentence.mined_opinions:
print(f"Target: {opinion.target.text} -> {opinion.target.sentiment}")
下载和安装
下载 azure-ai-textanalytics-py 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐