Appearance
如何利用 LLM-as-Judge 构建生产级 AI 评估系统
解决 LLM 输出质量难以量化的问题:通过构建一套包含评分量表、偏差缓解机制和结构化工作流的 LLM-as-Judge 系统,实现自动化、高一致性的模型输出评估。
为什么需要这个技能
在生产环境下,依靠人工审核(Human-in-the-loop)来评估 LLM 输出不仅成本极高且速度缓慢。虽然自动化脚本可以检查格式,但无法判断内容的“质量”、“语气”或“逻辑严密性”。
LLM-as-Judge 允许我们使用更强大的模型(如 GPT-4o 或 Claude 3.5)来充当裁判。然而,简单的评分会导致严重的位置偏差(Position Bias)、长度偏差(Length Bias)和自增强偏差(Self-Enhancement Bias)。掌握高级评估技能,意味着能够设计出能够对抗这些偏差、与人类判断高度一致的评估流水线。
适用场景
- 构建 LLM 输出的自动化质量评估流水线(Eval Pipeline)。
- 在多个候选模型或 Prompt 版本之间进行 A/B 测试,选择最优方案。
- 为评估团队建立统一、可量化的质量标准(Rubrics)。
- 需要将主观偏好(如:风格、说服力)转化为可度量的分数。
核心工作流
1. 选择评估方法
根据任务属性选择两种核心模式:
- 直接评分 (Direct Scoring):适用于客观标准(如:事实准确性、指令遵循度)。
- 两两比较 (Pairwise Comparison):适用于主观偏好(如:语气、创意、流畅度)。
2. 消除模型偏差
为了确保结果真实,必须实施以下策略:
- 位置对调:在两两比较中,将 A/B 顺序交换两次并运行,仅在两次结果一致时才确认获胜者,否则判定为平局(TIE)。
- 强制推理 (CoT):要求模型在给出分数前,必须先列出具体的证据和理由(Justification)。
- 长度约束:在提示词中明确要求裁判忽略回复长度,防止模型倾向于给“长回复”打高分。
3. 构建评分量表 (Rubrics)
一个专业的量表应包含:
- 等级描述:定义 1-5 分每个等级的具体界限。
- 可观察特征:明确该等级必须具备的特征。
- 边缘案例指导:针对模糊情况的判定原则。
核心实现示例
直接评分提示词结构
markdown
## 任务
根据以下标准评估响应质量。
## 评估标准
Criterion: [名称]
Description: [衡量维度]
Weight: [权重 0-1]
## 指令
1. 在响应中寻找具体证据
2. 根据量表评分 (1-5 分)
3. 提供评分理由
4. 给出具体改进建议
## 输出格式
请输出包含 scores, justifications 和 summary 的结构化 JSON。两两比较的位置偏差缓解流程
- Pass 1: 响应 A 位置 1,响应 B 位置 2 结果
- Pass 2: 响应 B 位置 1,响应 A 位置 2 结果
- 一致性检查: 若 与 结论相同 确认获胜者;若不同 标记为平局。
下载和安装
下载 advanced-evaluation 中文版 Skill ZIP
解压后将目录放入你的 AI 工具 skills 文件夹,重启工具后即可使用。具体路径参考内附的 USAGE.zh.md。
你可能还需要
暂无推荐