当前位置: 首页 » 资讯 » 新科技 » 正文

一份没有标准答案的AI考卷,顶尖模型集体失灵

IP属地 中国·北京 DeepTech深科技 时间:2025-12-25 20:22:37

最近一两年,大型语言模型在各类标准化测试上的表现已经让人有点审美疲劳。MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)曾经是衡量模型能力的黄金标准,2022 年时 540 亿参数的 PaLM 勉强跨过 60% 的及格线,到了 2024 年,微软只用 38 亿参数的 Phi-3-mini 就达到了同样水平。

斯坦福大学 2025 年 AI 指数报告直言不讳地指出,MMLU、GSM8K、Humaneval 这些传统基准测试正在“饱和”,顶尖模型的分数已经逼近甚至超越人类水平,它们不再能有效区分模型之间的能力差异。

这引发了一个尴尬的问题:当考试变得太简单,我们怎么知道谁真的学会了?

2025 年 6 月,纽约大学和普林斯顿大学等高校的研究人员等人推出了 LiveCodeBench Pro,一个由奥赛奖牌得主们策划的竞赛级编程基准测试。它从 Codeforces、ICPC、IOI 等顶级赛事实时抓取题目,试图通过“防污染”设计来解决数据泄露问题。在那个基准上,最好的模型在中等难度题目上也只有 53% 的通过率,在高难度题目上直接归零。但 LiveCodeBench Pro 仍然采用传统的“通过/不通过”评判方式——要么全对,要么不得分。

为了解决这个问题,半年后,一支汇聚了加州大学伯克利分校、普林斯顿、加州大学圣地亚哥分校等多所顶尖高校成员的联合团队,共同推出了 FrontierCS。

这支团队可谓汇聚了基准测试领域的“全明星阵容”:除了打造了 LiveCodeBench Pro 的柴文浩及其团队,另一位核心共同负责人冒峘志此前主导的伯克利函数调用排行榜(Berkeley Function Calling Leaderboard, BFCL)也早已成为评估大模型工具使用能力的重要业界标准。两项高质量基准测试的主导者强强联手,使得 FrontierCS 在设计之初就具备了更全面、专业的评测视角的评测视野,为其严谨性提供了有力背书。


(研究团队)

这次,团队所构建的并非又一套“更难的选择题”,而是在评测范式上做出了根本性转变。


图丨相关论文(arXiv)

它包含 156 道计算机科学领域的开放式问题,覆盖算法优化、操作系统、高性能计算、数据库、人工智能研究等多个方向。与传统基准测试最大的不同在于:这些问题没有已知的最优解,但每个答案的质量都可以被客观量化评分。

想象一下,你要把一堆形状各异的俄罗斯方块(学名叫多连块,Polyomino)尽可能紧密地塞进一个矩形网格里。最紧密的摆法是什么?没人知道。但给定任意一种摆法,我们可以精确计算出它的密度(占据面积除以总面积)。人类专家在这道题上能达到 87% 的密度,而 GPT-5 Thinking 只做到 47%。两种摆法都未必是最优解,但密度这个连续指标能直观地反映出相对表现:谁的解法更好,一眼就能看出来。


(arXiv)

FrontierCS 的核心设计者之一、来自伯克利的博士生忙秋阳在接受采访时解释了这种设计背后的逻辑:“我们会刻意挑选那些本身是开放式的、最终解未知,但又能客观打分的题目。比如给定一个 SAT 问题,我们都知道它是 NP-hard 的,严格求最优在现实里往往不可达。但我们可以看它最多满足了多少约束条件,然后据此给出分数。这个分数是客观的,完全符合题目要求,也能够被验证。”

这种设计解决了传统基准测试的两个痼疾。第一个是数据污染问题。当测试题和答案都已公开,模型完全可能在预训练阶段就“背”过这些题,分数高不代表真正理解。FrontierCS 的题目虽然公开,但由于没有标准答案可背,模型必须真正“动脑子”才能拿分。

第二个问题是评测粒度太粗。传统基准测试通常采用“通过/不通过”的二元评判,SWE-bench 上解决一个极难的 issue 和解决一个简单的 issue 都只能算“做对一题”。而 FrontierCS 为每道题设计了连续的评分函数,能够精确刻画模型在“做得多好”这个维度上的差异。


(arXiv)

这套基准测试分为两个赛道。算法赛道包含 107 道题,大多改编自 IOI(国际信息学奥林匹克)、ICPC(国际大学生程序设计竞赛)世界总决赛等顶级编程竞赛,但被重新设计成开放式版本。研究赛道有 49 道题,来自真实的计算机科学研究场景,比如设计向量数据库索引以平衡查询延迟和召回率,或者优化 GPU 内核代码。

在算法赛道上,人类专家的平均得分是 95.41 分,而表现最好的 Gemini 3.0 Pro 只拿到 29.37 分。GPT-5 Thinking、Claude Opus 4.5、DeepSeek V3.2 Thinking 等当红模型的得分都在 10 到 15 分之间徘徊。


图丨在算法赛道上的基准测试结果(arXiv)

即使把采样次数从 1 次增加到 5 次,取最高分(Score@5),最好的模型也只能达到 52 分左右。研究赛道的情况稍好一些,Claude Opus 4.5 以 29.40 分领先,但同样远低于人类水平。

通过对模型行为模式进行更细致的观察,团队还发现了一些有意思,甚至违反直觉的现象。柴文浩在采访中提到:“在 LiveCodeBench Pro 这样的基准测试上,我们观察到‘思考越多表现越好’几乎是铁律。但在 FrontierCS 上,这个规律不再成立。模型的推理是有上限的,超过这个上限之后,多花的那部分‘思考’,未必能带来直接的收益提升。”

研究团队做了一个对照实验:把 GPT-5 Thinking 的推理强度分别设为低、中、高三档。从低到中,平均得分从 7.9 分涨到 15.3 分,符合预期。但从中到高,分数反而从 15.3 分掉到 12.6 分。这或许意味着当前推理模型的训练方式可能存在根本性的局限,它们被训练来“找到正确答案”,而不是“找到更好的答案”。

团队对此的解释是:“模型更擅长的,其实是读懂教科书式的问题。它的推理本质上是:我给你一道算法竞赛题,你可以很快把它归类到某个常见套路上。但面对开放式问题,这种思路就行不通了。”

他举了个例子:在交互式问题(Interactive Problems)上,模型的表现尤其糟糕。这类题目要求你通过多轮查询来推断某个隐藏的结构,不存在任何可以直接套用的教科书算法。“这些题不会出现在任何 textbook 里。每一个开放式问题都需要先观察题目的性质,再利用这些性质去构造更优的解法。”


(arXiv)

团队还观察到一个“微优化陷阱”:模型经常会陷入一些细枝末节的优化,而忽略了核心的算法选择。论文中举了多连块打包问题的例子,GPT-5 Thinking 倾向于直接用输出格式(变换列表)作为内部数据结构,这虽然节省内存,但会让碰撞检测和空间搜索变得极其繁琐,导致 30% 的尝试直接输出无效代码,剩下 70% 也只能拿到低分。

而如果在提示词中加一句“请用二维数组维护矩形状态,最后再转换成输出格式”,模型的表现就会大幅改善。这说明当前模型缺乏识别“什么优化才是重要的”的能力,它们容易被表面上合理但战略上无关紧要的细节所吸引。

Claude 系列模型展现出了一种独特的“研究—工程分裂症”。在算法赛道上,Claude Sonnet 4.5 只拿到 5.84 分,是所有测试模型中最低的;但在研究赛道上,Claude Opus 4.5 以 29.40 分拔得头筹。

柴文浩分析道:“Claude 往往会给出一个相对简单、工整、稳定、不容易出错但并非最优的解,然后就停住了。所以它更适合做一些工程类的事情,在 algorithm track 上表现就非常一般。”这与 Claude 在 SWE-bench Verified 上的亮眼表现形成对照,那个基准测试评估的恰恰是解决真实软件工程问题的能力。

当然,开放式基准测试也有其局限。冒峘志坦承,虽然 FrontierCS 的题目设计决定了不存在可以“背诵”的标准答案,但如果只是想达到某个中等分数(比如 50 分),理论上仍然可以通过训练高分轨迹(trace)来“抄近道”。此外,不同题目之间的分数并不直接可比,一个系统研究任务的 70 分和一个算法优化任务的 70 分,含义可能完全不同。

为了缓解这个问题,为缓解可比性问题,团队曾讨论用基于 Elo rating 的排名方案做相对比较,但也认为它未必最优:Elo 需要大量 battle 数据,成本很高。更现实的方案是按总体分布划分区间,给出 A/B/C/D 之类的等级分档(例如前 15% 为 A、再后 25% 为 B),用分档呈现相对水平。

在谈到 FrontierCS 的长期规划时,忙秋阳说:“这些题目的本质决定了它很难做到绝对饱和。最多是我们给的这些人类参照可能会被模型超过,但即使两年后所有人类参照都被超过了,也不意味着这个题就被‘解决’了。我们仍然可以量化每一道题目前被做到什么程度。”

研究团队设计了三种难度升级机制:添加新问题、在不改变题目描述的前提下收紧约束条件(比如更严格的时间限制或更大规模的测试用例)、以及在模型接近或超越人类基准时更新参考解和评分阈值。这确保了基准测试能够随着模型能力的提升而“进化”,避免再次陷入饱和困境。

这种“动态进化”的机制,正是 FrontierCS 区别于传统评测集的关键。

在另一位核心贡献者李知非看来,FrontierCS 的设计反映了 AI 发展的一个重要趋势:从单一模型向“AI 驱动的系统(AI-Driven Systems)”演进。他认为,未来的 AI 可能不再是单纯给出静态答案的模型,而是能够生成海量候选方案,并通过验证器自动筛选(Filter)甚至修正(Refine)代码的复杂系统。面对这种具备“暴力破解”潜力的系统,传统的静态测试可能会失效。

“真正的挑战在于,能否在没有标准答案的开放空间里,持续找到更优的解。”李知非解释道,FrontierCS 利用了算法与系统领域天然具备的“可靠验证器(Reliable Verifier)”,例如算法的时空复杂度或系统的吞吐量与延迟,以此构建连续的评分阶梯。这促使 AI 系统不能止步于“做对”,而是在算法设计与系统优化的闭环中尝试寻找更优解。

团队将这种设计理念总结为“Evolving Challenges for Evolving Intelligence”(进化的智能需要进化的挑战)。他们希望 FrontierCS 不仅是一个评估工具,未来也能成为支持下一代 AI 系统(ADRS)进行自主探索和演进的验证平台。

从更宏观的视角看,FrontierCS 的意义不仅在于提供一个更难的测试,而在于它为强化学习训练开辟了新的可能性。传统代码生成任务的奖励信号是二元的,要么通过测试,要么不通过。而 FrontierCS 的每道题都提供连续的、可验证的质量分数,这天然适合作为 RL 训练的奖励。

团队在采访中表达了这个愿景:“我们希望社区能在这些开放式问题上找到更好的训练方式,让模型愿意多想一点,也能因此拿到更多分。”如果这个愿景实现,模型或许能学会一种新的思维模式,不是“找到正确答案然后停止”,而是“持续探索更好的方案”。

几十年来,计算机科学的许多核心问题,如调度算法、背包问题、电路设计等都是典型的开放式优化问题。它们没有一劳永逸的最优解,只有在特定约束下的更好近似。如果大语言模型想要从进化为真正的“研究员”,它们必须学会在这种没有标准答案的迷雾中导航。FrontierCS 提供的,正是这样一片实验场地。

正如论文结尾所写:当前的大型推理模型在开放式优化和系统级权衡方面仍然脆弱,在封闭式编程任务上的能力并不能可靠地迁移到开放式问题求解。这不是一个可以通过简单堆叠算力或延长思考时间来解决的问题。某种意义上,它指向的是当前 AI 能力的一个结构性盲区——我们训练模型去寻找“正确”的答案,却没有教会它们什么是“更好”。

参考资料:

1.https://arxiv.org/abs/2512.15699

2.https://frontier-cs.org/

3.https://github.com/FrontierCS/Frontier-CS

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。