防止 RAG 幻觉:使用 Clarity Gate 验证知识库文档质量
解决 RAG 系统中常见的“过度自信”幻觉问题:在文档摄入(Ingestion)前建立一道“认知之门”,强制要求对假设、预测和未验证数据添加明确的标记,确保 LLM 能正确区分事实与推测。
为什么需要这个技能
在构建 RAG(检索增强生成)系统时,如果知识库中的文档包含模糊的描述(例如将“预计营收 5000 万”写成“营收将达到 5000 万”),AI 在检索到该片段后会极高概率地将其作为绝对事实输出,导致严重的业务误导。
传统的检测工具只能发现文本中“是否包含”不确定词汇,而 Clarity Gate 实现了强制执行(Enforcement):它会审视文档,判断此处“是否应该”表达不确定性,并强制将其转换为符合规范的 CGD(Clarity-Gated Documents)格式。
适用场景
- RAG 知识库预处理:在文档进入向量数据库前,确保所有主张(Claims)都有来源或不确定性标记。
- 技术文档交付:在不同 LLM 会话或团队之间交接规格说明书、状态文档时。
- 高风险数据审计:处理包含预测、估算或竞争对手对比数据的文档。
- SOT(唯一真理源)验证:验证核心事实文件是否符合结构化校验标准。
核心工作流
-
语义审查(9 个验证点):
- 认知检查:区分假设与事实,强制执行不确定性标记(如使用
PROJECTED:或~),使隐含假设显式化。 - 数据质量:扫描内部数据冲突(如前后文数字不一致)及隐含因果关系。
- 时间一致性:校验文档日期与版本时间轴是否逻辑自洽。
- 外部可验证性:标记需要人工核实的特定数字(如价格、比率)。
- 认知检查:区分假设与事实,强制执行不确定性标记(如使用
-
确定性计算:
- 使用
scripts/claim_id.py为每个主张生成唯一的 Hash ID,便于追踪。 - 使用
scripts/document_hash.py对文档进行规范化处理并计算 SHA-256 哈希,确保文档完整性。
- 使用
-
HITL(人机协作)验证:
- Round A:确认 AI 对现有来源的理解是否正确。
- Round B:由人类专家对无来源的推论或关键事实进行最终确认。
-
输出 CGD 标准文档:生成包含 YAML 前置元数据和
## HITL Verification Record记录的.cgd.md文件。
下载和安装
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐