Appearance
AI 跑分这件事:数字背后你没被告知的部分
上一篇写 Claude Mythos 的时候,我引用了三个数字:
- SWE-bench Verified:93.9%
- USAMO 2026:97.6%
- CyberGym:83.1%
我当时是把这些数字当作"它很厉害"的证据来用的。但仔细想想,我自己也没完全搞清楚这些数字在测什么、满分意味着什么、高分又不意味着什么。
这篇就来拆一拆。
SWE-bench Verified:修 bug,不是写代码
SWE-bench 是目前最受认可的代码能力测试之一。测法很直接:从 GitHub 真实开源项目里拿来已经被合并的 bug 修复 PR,把修复还原掉,让 AI 重新修。
用项目原来的单元测试来判断 AI 有没有真正修好——不是人工评判,是跑测试。
题目来源都是真实项目:Django、Flask、pandas、requests 这种日常在用的库。
Verified 版本是精简子集,500 道题,由人工审核过,确保每道题的测试用例本身是可靠的(原版 2000 多题里有些测试用例质量很差)。
93.9% 意味着什么:AI 能自主修复 500 个真实 bug 里的 469 个。这个数字放两年前是不可想象的。
但它不意味着:AI 能独立做完整的软件项目。SWE-bench 测的是"找到问题、改几行代码、通过测试",和"从零开始设计一个系统、维护它、理解用户需求"是完全不同的事情。
把 SWE-bench 高分解读为"AI 能替代软件工程师",是最常见的误读。它测的是单个 bug 的修复能力,不是工程能力的全貌。
USAMO:先把它和 AIME 区分开
这里有个经常被混淆的地方:USAMO 和 AIME 是两件完全不同的事。
AIME(美国数学邀请赛):答案是 0 到 999 之间的整数,填空题。计算密集,没有证明过程。
USAMO(美国数学奥林匹克):需要书写严格数学证明。题目不是"算出答案",是"证明这个结论成立"。难度高出一档,是 IMO 国际奥数的选拔入口。
AI 在 AIME 上的表现一直被各家用来宣传,但 USAMO 才是真正考验数学推理能力的测试。Claude Mythos 宣称的是 USAMO 2026 97.6%,如果属实,那说明它在需要创造性证明的竞赛数学上已经非常强。
需要注意的是:AI"参加"USAMO 和人类参加不是一回事。测试通常是把历年真题输入模型,让它输出证明过程,再由数学专家打分或用自动化方式验证。不是标准考场环境。
ARC-AGI:专门用来刁难 AI 的测试
ARC-AGI 是 Keras 作者 François Chollet 设计的,题目看起来很简单——给几组输入/输出的图案,让你找出规律,预测新输入对应的输出。
下面是典型的题目感觉(文字描述):
给出示例:
[红色格子在右边] → [红色格子在左边]。新输入:[蓝色格子在上面],输出是?
对人类来说,这种题基本秒答,平均正确率 85% 以上。
对 AI 来说,这类题极难。原因是:这些题专门排除了训练数据优势。每道题的规律都是全新的,模型没办法靠"见过类似的例子"来取巧,必须真的推断出抽象规律。
为什么被认为重要:它被认为比 MMLU 更接近测量"真实智能"——不是测你记了多少,而是测你能不能从少量样本中学到新规则。
GPT-4 在 ARC-AGI 上长期表现很差,这是 AI 研究者一直在意的信号之一。
常见误读:ARC-AGI 低分不代表模型"没用",高分也不直接等于实际有用。它更像是能力的某个维度探针,而不是综合评分。
MMLU:博学程度测试,不是智力测试
MMLU 覆盖 57 个学科、约 16000 道四选一选择题,从小学数学到医学伦理、国际关系都有。
最大的误读:很多人把 MMLU 高分当成"AI 真的懂这些"的证据。它实际上更接近"AI 记住了这些"的测试。模型可以靠训练数据里背过的答案拿到高分,不一定代表它理解了背后的推理。
另一个问题是:顶级模型在 MMLU 上已经接近甚至超过专家平均分了,这个测试对区分最强的几个模型几乎失去了意义。选择题还有 25% 的随机猜中概率,统计噪音不小。
MMLU 仍然有意义,但更多是用来确认"模型有没有基本知识覆盖",而不是比较谁更聪明。
HumanEval vs LiveCodeBench:编程测试里的数据污染问题
HumanEval 是 OpenAI 做的,164 道 Python 函数补全题。给函数签名和注释,让模型写出函数体,用单元测试判断对错。
它有个很大的问题:这 164 道题太出名了。几乎可以确定大部分模型的训练数据里包含这些题目的答案。这叫数据污染——测试集被"剧透"了。
有模型 HumanEval 接近满分,但放到真正的新题上就明显下降。
LiveCodeBench 解决了这个问题:它持续从 LeetCode、AtCoder、Codeforces 爬取最新比赛题目。题目比模型的训练截止日期新,没办法靠记忆取巧。难度也更高,覆盖 Easy 到 Hard。
比较编程能力,LiveCodeBench 比 HumanEval 可信得多。下次看到某个模型说"HumanEval X%",可以先打个折。
CyberGym / CTF 类安全测试
这类测试让 AI 面对 CTF(Capture The Flag)网络安全挑战——漏洞利用、逆向工程、Web 渗透等。
分数高意味着什么:AI 能自主发现并利用安全漏洞,具备一定程度的自动化渗透能力。这也是 Anthropic 说 Claude Mythos"攻击性太强"不对外开放的直接原因。
局限:CTF 题目是专门设计的练习题,有明确的"旗帜"要找。和真实的零日漏洞攻击还有距离。但随着分数提升,这个距离在缩短。
汇总一下
| Benchmark | 测量核心 | 高分含义 | 主要局限 |
|---|---|---|---|
| SWE-bench Verified | 真实 bug 修复 | 能修复单个孤立 bug | 不等于完整工程能力 |
| USAMO | 竞赛数学证明 | 强符号推理能力 | 需区分 AIME/USAMO |
| ARC-AGI | 抽象推理/泛化 | 从少量样本学习新规则 | 与实际有用性相关性弱 |
| MMLU | 学科知识广度 | 知识覆盖均衡 | 可靠记忆,顶层区分度低 |
| HumanEval | 基础代码生成 | 函数补全能力 | 数据污染严重 |
| LiveCodeBench | 实时编程能力 | 解决新颖编程题 | 难度分布不均 |
| CTF Benchmarks | 漏洞利用能力 | 自动化渗透能力 | 非真实攻击场景 |
为什么这件事值得搞清楚
不是要你看懂所有技术细节。而是:每次新模型发布,PR 稿里都会堆满这些数字,用来让你觉得"这次真的不一样了"。
有时候确实不一样。有时候只是换了一个测试集、或者测试条件稍有不同,数字就好看很多。
能看懂这些数字在测什么,是判断"这次是不是真的不一样"的基本功。