AI 跑分这件事：数字背后你没被告知的部分

上一篇写 Claude Mythos 的时候，我引用了三个数字：

SWE-bench Verified：93.9%
USAMO 2026：97.6%
CyberGym：83.1%

我当时是把这些数字当作"它很厉害"的证据来用的。但仔细想想，我自己也没完全搞清楚这些数字在测什么、满分意味着什么、高分又不意味着什么。

这篇就来拆一拆。

SWE-bench Verified：修 bug，不是写代码

SWE-bench 是目前最受认可的代码能力测试之一。测法很直接：从 GitHub 真实开源项目里拿来已经被合并的 bug 修复 PR，把修复还原掉，让 AI 重新修。

用项目原来的单元测试来判断 AI 有没有真正修好——不是人工评判，是跑测试。

题目来源都是真实项目：Django、Flask、pandas、requests 这种日常在用的库。

Verified 版本是精简子集，500 道题，由人工审核过，确保每道题的测试用例本身是可靠的（原版 2000 多题里有些测试用例质量很差）。

93.9% 意味着什么：AI 能自主修复 500 个真实 bug 里的 469 个。这个数字放两年前是不可想象的。

但它不意味着：AI 能独立做完整的软件项目。SWE-bench 测的是"找到问题、改几行代码、通过测试"，和"从零开始设计一个系统、维护它、理解用户需求"是完全不同的事情。

把 SWE-bench 高分解读为"AI 能替代软件工程师"，是最常见的误读。它测的是单个 bug 的修复能力，不是工程能力的全貌。

USAMO：先把它和 AIME 区分开

这里有个经常被混淆的地方：USAMO 和 AIME 是两件完全不同的事。

AIME（美国数学邀请赛）：答案是 0 到 999 之间的整数，填空题。计算密集，没有证明过程。

USAMO（美国数学奥林匹克）：需要书写严格数学证明。题目不是"算出答案"，是"证明这个结论成立"。难度高出一档，是 IMO 国际奥数的选拔入口。

AI 在 AIME 上的表现一直被各家用来宣传，但 USAMO 才是真正考验数学推理能力的测试。Claude Mythos 宣称的是 USAMO 2026 97.6%，如果属实，那说明它在需要创造性证明的竞赛数学上已经非常强。

需要注意的是：AI"参加"USAMO 和人类参加不是一回事。测试通常是把历年真题输入模型，让它输出证明过程，再由数学专家打分或用自动化方式验证。不是标准考场环境。

ARC-AGI：专门用来刁难 AI 的测试

ARC-AGI 是 Keras 作者 François Chollet 设计的，题目看起来很简单——给几组输入/输出的图案，让你找出规律，预测新输入对应的输出。

下面是典型的题目感觉（文字描述）：

给出示例：[红色格子在右边] → [红色格子在左边]。新输入：[蓝色格子在上面]，输出是？

对人类来说，这种题基本秒答，平均正确率 85% 以上。

对 AI 来说，这类题极难。原因是：这些题专门排除了训练数据优势。每道题的规律都是全新的，模型没办法靠"见过类似的例子"来取巧，必须真的推断出抽象规律。

为什么被认为重要：它被认为比 MMLU 更接近测量"真实智能"——不是测你记了多少，而是测你能不能从少量样本中学到新规则。

GPT-4 在 ARC-AGI 上长期表现很差，这是 AI 研究者一直在意的信号之一。

常见误读：ARC-AGI 低分不代表模型"没用"，高分也不直接等于实际有用。它更像是能力的某个维度探针，而不是综合评分。

MMLU：博学程度测试，不是智力测试

MMLU 覆盖 57 个学科、约 16000 道四选一选择题，从小学数学到医学伦理、国际关系都有。

最大的误读：很多人把 MMLU 高分当成"AI 真的懂这些"的证据。它实际上更接近"AI 记住了这些"的测试。模型可以靠训练数据里背过的答案拿到高分，不一定代表它理解了背后的推理。

另一个问题是：顶级模型在 MMLU 上已经接近甚至超过专家平均分了，这个测试对区分最强的几个模型几乎失去了意义。选择题还有 25% 的随机猜中概率，统计噪音不小。

MMLU 仍然有意义，但更多是用来确认"模型有没有基本知识覆盖"，而不是比较谁更聪明。

HumanEval vs LiveCodeBench：编程测试里的数据污染问题

HumanEval 是 OpenAI 做的，164 道 Python 函数补全题。给函数签名和注释，让模型写出函数体，用单元测试判断对错。

它有个很大的问题：这 164 道题太出名了。几乎可以确定大部分模型的训练数据里包含这些题目的答案。这叫数据污染——测试集被"剧透"了。

有模型 HumanEval 接近满分，但放到真正的新题上就明显下降。

LiveCodeBench 解决了这个问题：它持续从 LeetCode、AtCoder、Codeforces 爬取最新比赛题目。题目比模型的训练截止日期新，没办法靠记忆取巧。难度也更高，覆盖 Easy 到 Hard。

比较编程能力，LiveCodeBench 比 HumanEval 可信得多。下次看到某个模型说"HumanEval X%"，可以先打个折。

CyberGym / CTF 类安全测试

这类测试让 AI 面对 CTF（Capture The Flag）网络安全挑战——漏洞利用、逆向工程、Web 渗透等。

分数高意味着什么：AI 能自主发现并利用安全漏洞，具备一定程度的自动化渗透能力。这也是 Anthropic 说 Claude Mythos"攻击性太强"不对外开放的直接原因。

局限：CTF 题目是专门设计的练习题，有明确的"旗帜"要找。和真实的零日漏洞攻击还有距离。但随着分数提升，这个距离在缩短。

汇总一下

Benchmark	测量核心	高分含义	主要局限
SWE-bench Verified	真实 bug 修复	能修复单个孤立 bug	不等于完整工程能力
USAMO	竞赛数学证明	强符号推理能力	需区分 AIME/USAMO
ARC-AGI	抽象推理/泛化	从少量样本学习新规则	与实际有用性相关性弱
MMLU	学科知识广度	知识覆盖均衡	可靠记忆，顶层区分度低
HumanEval	基础代码生成	函数补全能力	数据污染严重
LiveCodeBench	实时编程能力	解决新颖编程题	难度分布不均
CTF Benchmarks	漏洞利用能力	自动化渗透能力	非真实攻击场景

为什么这件事值得搞清楚

不是要你看懂所有技术细节。而是：每次新模型发布，PR 稿里都会堆满这些数字，用来让你觉得"这次真的不一样了"。

有时候确实不一样。有时候只是换了一个测试集、或者测试条件稍有不同，数字就好看很多。

能看懂这些数字在测什么，是判断"这次是不是真的不一样"的基本功。

AI 跑分这件事：数字背后你没被告知的部分 #

SWE-bench Verified：修 bug，不是写代码 #

USAMO：先把它和 AIME 区分开 #

ARC-AGI：专门用来刁难 AI 的测试 #

MMLU：博学程度测试，不是智力测试 #

HumanEval vs LiveCodeBench：编程测试里的数据污染问题 #

CyberGym / CTF 类安全测试 #

汇总一下 #

为什么这件事值得搞清楚 #