防止 RAG 幻觉:使用 Clarity Gate 验证知识库文档质量

解决 RAG 系统中常见的“过度自信”幻觉问题:在文档摄入(Ingestion)前建立一道“认知之门”,强制要求对假设、预测和未验证数据添加明确的标记,确保 LLM 能正确区分事实与推测。

为什么需要这个技能

在构建 RAG(检索增强生成)系统时,如果知识库中的文档包含模糊的描述(例如将“预计营收 5000 万”写成“营收将达到 5000 万”),AI 在检索到该片段后会极高概率地将其作为绝对事实输出,导致严重的业务误导。

传统的检测工具只能发现文本中“是否包含”不确定词汇,而 Clarity Gate 实现了强制执行(Enforcement):它会审视文档,判断此处“是否应该”表达不确定性,并强制将其转换为符合规范的 CGD(Clarity-Gated Documents)格式。

适用场景

  • RAG 知识库预处理:在文档进入向量数据库前,确保所有主张(Claims)都有来源或不确定性标记。
  • 技术文档交付:在不同 LLM 会话或团队之间交接规格说明书、状态文档时。
  • 高风险数据审计:处理包含预测、估算或竞争对手对比数据的文档。
  • SOT(唯一真理源)验证:验证核心事实文件是否符合结构化校验标准。

核心工作流

  1. 语义审查(9 个验证点)

    • 认知检查:区分假设与事实,强制执行不确定性标记(如使用 PROJECTED:~),使隐含假设显式化。
    • 数据质量:扫描内部数据冲突(如前后文数字不一致)及隐含因果关系。
    • 时间一致性:校验文档日期与版本时间轴是否逻辑自洽。
    • 外部可验证性:标记需要人工核实的特定数字(如价格、比率)。
  2. 确定性计算

    • 使用 scripts/claim_id.py 为每个主张生成唯一的 Hash ID,便于追踪。
    • 使用 scripts/document_hash.py 对文档进行规范化处理并计算 SHA-256 哈希,确保文档完整性。
  3. HITL(人机协作)验证

    • Round A:确认 AI 对现有来源的理解是否正确。
    • Round B:由人类专家对无来源的推论或关键事实进行最终确认。
  4. 输出 CGD 标准文档:生成包含 YAML 前置元数据和 ## HITL Verification Record 记录的 .cgd.md 文件。

下载和安装

下载 clarity-gate 中文版 Skill ZIP

解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md

你可能还需要

暂无推荐