文 | 硅基星芒
过去两年,AI 叙事的坐标系近乎失准。
MMLU、Humaneval 这类静态指标像高考榜单一样被反复张贴,不断刷新的数字仿佛宣告通用人工智能已抵近终点线。
然而,一种名为APEX‑Agents的新基准戳破了这层幻象。
它揭示的并非模型智商的线性进步,而是一个残酷的悖论:当 AI 试图从“回答问题”跨越到“完成工作”时,能力的提升正陷入严重的数据饥渴。
从LLM(语言大模型)到Agent的转向,不是版本的升级,而是一次从静态智力到动态生产力的范式转移。其跨越难度,被整个行业严重低估。
评测权杖的交接
在过去的三年中,LLM一直是AI的主要形态。
那时,人们评测模型的重心在于“智商”,也就是模型能够掌握多少静态知识、能否正确进行逻辑推导。
但随着AI的形态在不到半年间从LLM全面过渡到Agent,评测的权杖也必须发生交接。
Agent的核心本质就在于它必须与数字环境甚至真实物理环境进行高频的感知和交互。
APEX-Agents基准测试选择彻底摒弃了以往“一问一答”式的数学和编程考卷,取而代之的则是33个数据丰富的模拟世界(Worlds)。
每个世界都代表一个独特的项目场景,其中平均包含166个文件并涉及9个以上的应用程序工具。
对于模型来说,这与大语言模型“纸上谈兵”的交互方式截然不同。
它被投放在一个数字沙盒之中,但这次要面对的不是各种复杂的数学题和编程题,而是要像人类员工一样在长达数小时的任务链条中观察环境变化、拆解复杂指令、调用各种工具并交付最终成果。
智能体时代初期的代码执行、PDF解析、电子表格标签操作等目标,也变成了微小但容错率极低的中间环节。
这种评价标准的转变,反映出了AGI门槛的实质性变化:
它关心的不是模型知道什么,而是在复杂的环境下能做成什么。
为了模拟真实职场给人类带来的“重力感”,APEX还下血本邀请了来自麦肯锡、高盛、思科等企业共256位拥有平均12.9年行业经验的顶级专家。
这些专家不仅要基于专业知识给模型提出任务,还要给出明确的“过程准则(Rubrics)”,让评测从一场智力游戏彻底蜕变成生产力的挑战。
被无情揭开的性能“遮羞布”
面对APEX-Agents的Pass@1(一次通过率)排行榜结果,任何出于商业化目的鼓吹“AGI即将实现”的说法都不攻自破。
数据展现出了令人冷静的低迷,而这种低准确率和高跑分结果形成了鲜明的对比,直接戳破了AGI的泡沫。
这项基准测试的场景主要用于评估三个职位:企业律师、管理顾问和投资银行分析师。
报告显示,全球AI三巨头之一的Google旗下的Gemini 3 Flash在开启高度思考模式下,也只得到了24%的分数。
同为三巨头之一的GPT-5.2(High)也没好到哪里去,以23%的分数位居第二。
具体到细分的职业场景中,分数也都不太理想,再先进的模型也难以突破30%的门槛。
在这个情况下,讨论哪个模型能力更强已经意义不大。
关键的问题在于,为什么以前使用体验很好的LLM在实际任务中表现得如此差劲?
APEX报告指出了几个关键的失败模式,而这正是大模型无法转变为生产力工具的最大限制:
死循环(Doom Looping):模型在遇到工具调用失败时,无法进行有效的反思,而是反复尝试同样的错误指令,直到消耗完预设的步数限制。因此,现阶段的Agent仍然缺乏认知能力。
流氓行为(Rogue Behavior):GPT-5.2在测试中曾经犯下大错,意外删除了21个关键的生产文件。对于严谨的金融和法律领域,这种误操作必然招致灾难性的后果。
长时程规划迷失:当任务步骤超过了限制,模型的“意图漂移(Intent Drift)”现象极为严重这也是Vibe Coding中最常见的情况,模型在任务执行到一半时早已忘记了初始目标。
若将尝试次数放宽至8次(Pass@8),顶尖模型的得分能够接近40%,但衡量稳定性的指标却降到了最低6.5%,这就是当前智能体的典型特征:具备潜力,但极不稳定。
换句话说,智能体能够产出碎片化的有效信息,但难以完成闭环交付。
这些数据也揭示了一个被刻意掩盖的真相:
现阶段的智能体最多只能算是AGI的最初级形态。
那些鼓吹AGI进度已经完成大半的说法,完全是基于静态智商测试的商业包装。
传统LLM的性能瓶颈主要在于算力和参数量,而Agent时代的门槛已经转移到任务编排、状态管理、错误恢复和长程规划。
智能体连“可用”和“可靠”之间的鸿沟都无法跨越,更不要提“好用”,在复杂的工作流面前,AI依然显得十分稚嫩。
成本的陷阱
在现有的Agent测评中,准确率顺理成章地成为了唯一的主角,但对商业落地具有决定性影响的token消耗成本往往无人提及。
众所周知,Agent相比于LLM,消耗的token成本完全不在一个量级。
APEX报告提供的数据让这种差距更加具象化:
以24%的Pass@1分数领跑的Google最新模型Gemini 3 Flash单次任务平均消耗的token达到了531.5万,大约是GPT-5.2的5倍、Gemini 3 Pro的8倍。
然而,性能优势的差距只有1%。
这个数字已经足以让所有开发者在做出决策前冷静下来。
如果按照目前闭源模型的价格核算,完成一个复杂的投行任务,算力成本必然高达几十美金。
即便不考虑模型部署的固定成本,AI的运行成本也已经逼近甚至超过了初级人类分析师的时薪。
目前智能体展现出来的较低水平的准确率,本质上也是建立在不计成本的暴力推理之上而实现的。
模型可以通过海量的思维链(CoT)和反复重试来换取成功率,但在商业情境下,这两种方式都不可能无限制使用。
因此,这种“高消耗+低增益”的边际递减效应直接指向了一个产业级的命题:
在智能体时代,性价比必须与准确率同等重要,甚至更具决定性。
未来的Agent基准测试,必须引入基于token的投资回报率。
如果Agent无法实现低功耗、高精度的闭环,它就永远无法成为社会期待的通用基础设施。
生态分化与商业格局
APEX报告中另一个值得关注的现象在于开源模型在这场基准测试中的全面溃败。
在LLM时代,开源模型凭借着参数量的扩张和高质量语料库的预训练,在多项静态基准中已经屡屡逼近甚至反超AI巨头的上一代旗舰模型。
但进入Agent时代以后,“开源平权”的叙事已经接近失效。
尽管全球范围内的顶尖模型也做不到“可靠”,但闭源模型还是对开源模型形成了降维打击,像GPT-OSS-120B和Kimi K2的得分甚至低于5%。
但事实证明,面对长时程规划、严格指令遵循和工具调用的实战任务时,这些开源模型仍然处于不可用的状态。
当然,把这种落差单纯归因于基础模型推理能力不足并不客观,智能体能力的系统复合性也极为重要。
一个能稳定执行长周期任务的Agent不仅需要底层模型具备强大的语言理解能力,还需要把轨迹优化、状态一致性等LLM时代容易被忽视的细节做得更完美。
闭环数据、大规模算力调度、端到端的技术栈,这些都是闭源厂商在智能体时代的商业命脉。
但开源模型目前仍然停留在初期阶段,缺少高质量的行为对齐数据。
掌控了智能体的“办事逻辑”和执行轨迹,就等同于建立起一道坚固的数据壁垒。
因此,LLM时代AI逻辑被颠覆的同时,我们也可以清晰地看到眼前的事实和未来的趋势:
那些真正能放在智能体中“办事”的模型,几乎都不是免费的。
存量数据正成为重大挑战
无论是LLM的时代,还是Agent的时代,AI的三要素始终没有变化:算法、算力和数据。
在上一篇文章中,我们已经说过算力紧缺是客观存在且短期内不可改变的事实。
但智能体取代LLM成为新时代的AI形态的同时,一个根本性的挑战也已经摆在所有人的面前:
Agent能力的提升已经陷入严重的数据饥渴。
字节跳动震惊全球的Seedance 2.0成功案例已经证明,在TikTok的加持下,凭借海量真实的视觉数据,即便算力相比Google和OpenAI处于劣势,但仍然能超越Veo和Sora实现多模态领域的突破。
但这一套成功的逻辑并不能直接套用到智能体上,因为文本、图像、音频和视频都是现实世界中在AI出现之前就已经存在的“非结构化”存量。
Agent执行任务的逻辑与多模态模型不同,它是一套“人如何使用工具完成任务”的隐形逻辑。
显然,这种逻辑在AI出现之前不可能被大规模数字化记录。
人类如何打开Excel、如何根据报错修改公式、如何在邮件中确认需求,这些日常生活中最常见的情景,对于AI来说极其复杂而且难以抽象。
互联网上存在海量的高质量文本数据,却几乎没有高质量的“任务执行轨迹”。
事实上,黄仁勋在2024年的预言就精确命中了这个痛点:单纯依赖现有的数据堆砌无法支撑下一代AI的演进。
和具身智能一样,想要解决现阶段智能体的瓶颈,必须构建高保真的虚拟世界环境,并通过合成数据(Synthetic Data)技术生成高质量的训练样本。
APEX基准测试中构建的Archipelago基础设施,实际上就是为了智能体专门提供的加速迭代试验场。
在这些虚拟环境中,Agent可以经历数百万次失败和修正,模拟真实职场中难以复现的极端场景。





京公网安备 11011402013531号