Skip to content

Nutrient Document Processing Skill 是 Everything Claude Code 插件体系中的专业文档处理能力,集成 Nutrient DWS API,支持 PDF、DOCX、XLSX、PPTX、HTML 及图片的格式互转、OCR 识别、文本与表格提取、敏感信息脱敏、加水印、数字签名和表单填充等操作。通过 Skill 体系,开发者可在 Claude Code、Codex、Cursor 等 AI 编程助手中实现一站式文档自动化处理,显著提升数据流转与合规效率,适用于合同管理、数据抽取、归档、批量表单等多种场景。

Everything Claude Code Nutrient Document Processing Skill:Nutrient DWS API 处理 PDF/DOCX/XLSX 的 OCR 与文档操作

在 AI 编程助手的生产级自动化场景中,开发者常常需要批量处理各类文档:格式转换、内容提取、OCR 识别、脱敏、加水印、签名、表单填充等。传统做法通常需要多个工具、复杂脚本甚至人工参与,流程割裂且难以自动化。Nutrient Document Processing Skill 正是为此而生——它通过集成 Nutrient DWS API,将上述所有功能一站式封装进 Everything Claude Code 的 Skill 体系,实现文档处理的全流程自动化。

如果你希望系统性提升 AI 辅助编程效率,建议先阅读 Everything Claude Code 完全指南:38 Agent + 156 Skill 的生产级 AI 编程插件Claude Code 快速上手指南:Skills、Hooks、Subagents、MCP 实战配置

这个 Skill 解决了什么问题?

  • 统一文档处理入口:无论是 PDF、DOCX、XLSX、PPTX、HTML 还是图片,都可用同一套 API 进行格式转换、OCR、内容提取等操作,极大简化自动化链路。
  • 高质量 OCR 与结构化抽取:支持 100+ 语言的 OCR,能批量将扫描件、图片转为可检索文档或结构化数据。
  • 合规与安全:内置敏感信息脱敏(PII/PHI)、水印、数字签名等功能,便于满足合规要求。
  • 批量表单处理:自动填充 PDF 表单,适用于合同、申请、归档等高频场景。
  • 极简集成:Skill 通过 MCP Server 或直接 API 调用,无需手写复杂脚本,支持自动触发和与其他 Agent/Skill 协作。

触发条件与激活时机

Nutrient Document Processing Skill 会在以下典型场景被自动或手动激活:

  • 需要将 DOCX、XLSX、HTML 等文件批量转为 PDF 归档
  • 批量扫描件、图片需要 OCR 识别为可搜索文档或结构化数据
  • 需要从 PDF 中抽取文本、表格、关键字段
  • 需要在文档中批量脱敏(如身份证号、邮箱、手机号等)
  • 需要自动批量加水印、数字签名或填充 PDF 表单
  • 需要将文档处理流程集成进更大的自动化工作流或多 Agent 协作链路

Skill 可通过 Hooks(如 PreToolUse、PostToolUse)自动触发,也可被特定 Agent(如 Doc Updater、Database Reviewer)调用,实现端到端的文档流转与合规。

Step by Step:实际项目中如何用好 Nutrient Document Processing Skill

1. 获取 Nutrient API Key 并配置环境

前往 nutrient.io 官网 申请免费 API Key,设置为环境变量:

bash
export NUTRIENT_API_KEY="pdf_live_..."

Skill 会自动读取该变量,无需在代码中硬编码密钥。

2. 常见操作场景与调用方式

a) 文档格式转换(如 DOCX 转 PDF、PDF 转 DOCX)

bash
# DOCX 转 PDF
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.docx=@document.docx" \
  -F 'instructions={"parts":[{"file":"document.docx"}]}' \
  -o output.pdf

# PDF 转 DOCX
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"output":{"type":"docx"}}' \
  -o output.docx

支持输入格式包括 PDF、DOCX、XLSX、PPTX、HTML、JPG、PNG 等,满足绝大多数业务需求。

b) 文本与表格提取

bash
# 提取 PDF 纯文本
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"output":{"type":"text"}}' \
  -o output.txt

# 提取表格为 Excel
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"output":{"type":"xlsx"}}' \
  -o tables.xlsx

c) OCR 识别(扫描件/图片转可搜索 PDF 或文本)

bash
# OCR 识别为可搜索 PDF
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "scanned.pdf=@scanned.pdf" \
  -F 'instructions={"parts":[{"file":"scanned.pdf"}],"actions":[{"type":"ocr","language":"english"}]}' \
  -o searchable.pdf

支持 100+ 语言,可用 ISO 639-2 代码(如 eng、deu、chi_sim)或全名(如 english、german)。

d) 敏感信息脱敏(PII/PHI)

bash
# 按预设脱敏(如社保号、邮箱)
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"actions":[{"type":"redaction","strategy":"preset","strategyOptions":{"preset":"social-security-number"}},{"type":"redaction","strategy":"preset","strategyOptions":{"preset":"email-address"}}]}' \
  -o redacted.pdf

# 自定义正则脱敏
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"actions":[{"type":"redaction","strategy":"regex","strategyOptions":{"regex":"\\b[A-Z]{2}\\d{6}\\b"}}]}' \
  -o redacted.pdf

预设支持社保号、邮箱、信用卡号、手机号、日期、IP、MAC、邮编等。

e) 加水印

bash
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"actions":[{"type":"watermark","text":"CONFIDENTIAL","fontSize":72,"opacity":0.3,"rotation":-45}]}' \
  -o watermarked.pdf

f) 数字签名

bash
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "document.pdf=@document.pdf" \
  -F 'instructions={"parts":[{"file":"document.pdf"}],"actions":[{"type":"sign","signatureType":"cms"}]}' \
  -o signed.pdf

g) 批量填充 PDF 表单

bash
curl -X POST https://api.nutrient.io/build \
  -H "Authorization: Bearer $NUTRIENT_API_KEY" \
  -F "form.pdf=@form.pdf" \
  -F 'instructions={"parts":[{"file":"form.pdf"}],"actions":[{"type":"fillForm","formFields":{"name":"Jane Smith","email":"jane@example.com","date":"2026-02-06"}}]}' \
  -o filled.pdf

3. 与 MCP Server 集成(推荐自动化/多 Agent 场景)

Skill 支持通过 MCP Server 以本地服务方式集成,适合与 Claude Code 的 Agent、Hooks、Rules 等体系协同:

json
{
  "mcpServers": {
    "nutrient-dws": {
      "command": "npx",
      "args": ["-y", "@nutrient-sdk/dws-mcp-server"],
      "env": {
        "NUTRIENT_DWS_API_KEY": "YOUR_API_KEY",
        "SANDBOX_PATH": "/path/to/working/directory"
      }
    }
  }
}

这样,所有文档处理请求都可被自动路由,无需手动调用 curl。

4. 输出示例

  • 批量上传扫描件后,自动获得可搜索 PDF 或结构化 Excel 表格
  • 合同归档前,自动脱敏所有身份证号、邮箱并加水印
  • 自动填充数百份 PDF 表单,生成归档文件夹
  • Agent 触发 Skill 后,自动将 DOCX 转 PDF 并签名,输出签署版合同

5. 常见配套 Agent 与 Skill 协作

  • Doc Updater Agent:自动更新项目文档、README,结合本 Skill 实现内容抽取与格式归一
  • Database Reviewer Agent:批量抽取 PDF 表格数据,自动入库
  • Verification Loop Skill:在文档处理后自动执行合规性验证
  • Hooks:如 PreToolUse/Stop,可在文档流转关键节点自动触发脱敏、加水印等操作

更多自动化与协作模式详见 Everything Claude Code Hooks 实战:PreToolUse / PostToolUse / Stop 事件驱动自动化完全配置

FAQ

Q: Nutrient Document Processing Skill 支持哪些文档和图片格式?
A: 支持 PDF、DOCX、XLSX、PPTX、HTML、JPG、PNG、TIFF、HEIC、GIF、WebP、SVG、TGA、EPS 等主流格式,覆盖绝大多数办公和扫描场景。

Q: 如何批量实现 OCR、脱敏和表单填充等多步操作?
A: 可通过 Skill 的多 action 配置一次性完成,或结合 Hooks/Agent 在自动化流程中串联调用,极大提升批量处理效率。

Q: API Key 如何安全管理?
A: 推荐使用环境变量(如 NUTRIENT_API_KEY),避免硬编码在脚本或配置文件中,Skill 会自动读取并安全传递。