Skip to content

AI 跑分这件事:数字背后你没被告知的部分

上一篇写 Claude Mythos 的时候,我引用了三个数字:

  • SWE-bench Verified:93.9%
  • USAMO 2026:97.6%
  • CyberGym:83.1%

我当时是把这些数字当作"它很厉害"的证据来用的。但仔细想想,我自己也没完全搞清楚这些数字在测什么、满分意味着什么、高分又不意味着什么。

这篇就来拆一拆。

SWE-bench Verified:修 bug,不是写代码

SWE-bench 是目前最受认可的代码能力测试之一。测法很直接:从 GitHub 真实开源项目里拿来已经被合并的 bug 修复 PR,把修复还原掉,让 AI 重新修。

用项目原来的单元测试来判断 AI 有没有真正修好——不是人工评判,是跑测试。

题目来源都是真实项目:Django、Flask、pandas、requests 这种日常在用的库。

Verified 版本是精简子集,500 道题,由人工审核过,确保每道题的测试用例本身是可靠的(原版 2000 多题里有些测试用例质量很差)。

93.9% 意味着什么:AI 能自主修复 500 个真实 bug 里的 469 个。这个数字放两年前是不可想象的。

但它不意味着:AI 能独立做完整的软件项目。SWE-bench 测的是"找到问题、改几行代码、通过测试",和"从零开始设计一个系统、维护它、理解用户需求"是完全不同的事情。

把 SWE-bench 高分解读为"AI 能替代软件工程师",是最常见的误读。它测的是单个 bug 的修复能力,不是工程能力的全貌。

USAMO:先把它和 AIME 区分开

这里有个经常被混淆的地方:USAMO 和 AIME 是两件完全不同的事。

AIME(美国数学邀请赛):答案是 0 到 999 之间的整数,填空题。计算密集,没有证明过程。

USAMO(美国数学奥林匹克):需要书写严格数学证明。题目不是"算出答案",是"证明这个结论成立"。难度高出一档,是 IMO 国际奥数的选拔入口。

AI 在 AIME 上的表现一直被各家用来宣传,但 USAMO 才是真正考验数学推理能力的测试。Claude Mythos 宣称的是 USAMO 2026 97.6%,如果属实,那说明它在需要创造性证明的竞赛数学上已经非常强。

需要注意的是:AI"参加"USAMO 和人类参加不是一回事。测试通常是把历年真题输入模型,让它输出证明过程,再由数学专家打分或用自动化方式验证。不是标准考场环境。

ARC-AGI:专门用来刁难 AI 的测试

ARC-AGI 是 Keras 作者 François Chollet 设计的,题目看起来很简单——给几组输入/输出的图案,让你找出规律,预测新输入对应的输出。

下面是典型的题目感觉(文字描述):

给出示例:[红色格子在右边] → [红色格子在左边]。新输入:[蓝色格子在上面],输出是?

对人类来说,这种题基本秒答,平均正确率 85% 以上。

对 AI 来说,这类题极难。原因是:这些题专门排除了训练数据优势。每道题的规律都是全新的,模型没办法靠"见过类似的例子"来取巧,必须真的推断出抽象规律。

为什么被认为重要:它被认为比 MMLU 更接近测量"真实智能"——不是测你记了多少,而是测你能不能从少量样本中学到新规则。

GPT-4 在 ARC-AGI 上长期表现很差,这是 AI 研究者一直在意的信号之一。

常见误读:ARC-AGI 低分不代表模型"没用",高分也不直接等于实际有用。它更像是能力的某个维度探针,而不是综合评分。

MMLU:博学程度测试,不是智力测试

MMLU 覆盖 57 个学科、约 16000 道四选一选择题,从小学数学到医学伦理、国际关系都有。

最大的误读:很多人把 MMLU 高分当成"AI 真的懂这些"的证据。它实际上更接近"AI 记住了这些"的测试。模型可以靠训练数据里背过的答案拿到高分,不一定代表它理解了背后的推理。

另一个问题是:顶级模型在 MMLU 上已经接近甚至超过专家平均分了,这个测试对区分最强的几个模型几乎失去了意义。选择题还有 25% 的随机猜中概率,统计噪音不小。

MMLU 仍然有意义,但更多是用来确认"模型有没有基本知识覆盖",而不是比较谁更聪明。

HumanEval vs LiveCodeBench:编程测试里的数据污染问题

HumanEval 是 OpenAI 做的,164 道 Python 函数补全题。给函数签名和注释,让模型写出函数体,用单元测试判断对错。

它有个很大的问题:这 164 道题太出名了。几乎可以确定大部分模型的训练数据里包含这些题目的答案。这叫数据污染——测试集被"剧透"了。

有模型 HumanEval 接近满分,但放到真正的新题上就明显下降。

LiveCodeBench 解决了这个问题:它持续从 LeetCode、AtCoder、Codeforces 爬取最新比赛题目。题目比模型的训练截止日期新,没办法靠记忆取巧。难度也更高,覆盖 Easy 到 Hard。

比较编程能力,LiveCodeBench 比 HumanEval 可信得多。下次看到某个模型说"HumanEval X%",可以先打个折。

CyberGym / CTF 类安全测试

这类测试让 AI 面对 CTF(Capture The Flag)网络安全挑战——漏洞利用、逆向工程、Web 渗透等。

分数高意味着什么:AI 能自主发现并利用安全漏洞,具备一定程度的自动化渗透能力。这也是 Anthropic 说 Claude Mythos"攻击性太强"不对外开放的直接原因。

局限:CTF 题目是专门设计的练习题,有明确的"旗帜"要找。和真实的零日漏洞攻击还有距离。但随着分数提升,这个距离在缩短。

汇总一下

Benchmark测量核心高分含义主要局限
SWE-bench Verified真实 bug 修复能修复单个孤立 bug不等于完整工程能力
USAMO竞赛数学证明强符号推理能力需区分 AIME/USAMO
ARC-AGI抽象推理/泛化从少量样本学习新规则与实际有用性相关性弱
MMLU学科知识广度知识覆盖均衡可靠记忆,顶层区分度低
HumanEval基础代码生成函数补全能力数据污染严重
LiveCodeBench实时编程能力解决新颖编程题难度分布不均
CTF Benchmarks漏洞利用能力自动化渗透能力非真实攻击场景

为什么这件事值得搞清楚

不是要你看懂所有技术细节。而是:每次新模型发布,PR 稿里都会堆满这些数字,用来让你觉得"这次真的不一样了"。

有时候确实不一样。有时候只是换了一个测试集、或者测试条件稍有不同,数字就好看很多。

能看懂这些数字在测什么,是判断"这次是不是真的不一样"的基本功。