当前位置: 首页 » 资讯 » 新科技 » 正文

加州大学伯克利分校推出史上最难AI代理测试基准

IP属地 中国·北京 科技行者 时间:2026-06-16 18:23:56


这项由加州大学伯克利分校主导、联合斯坦福大学、密歇根大学、华盛顿大学等数十家高校及产业机构共同完成的研究,于2026年6月3日以预印本形式发布,编号为arXiv:2606.05405。研究团队超过250名来自学术界和产业界的领域专家共同参与,历时数月打造了一个名为"Agents' Last Exam"(简称ALE,中文意为"智能体的最后一考")的全新AI评测基准。

过去几年,人工智能系统接连攻克了一道又一道被认为"难以逾越"的关卡——从围棋世界冠军到数学奥林匹克金牌,再到国际大学生编程竞赛桂冠,AI的"战绩"令人目不暇接。然而,每当人们把目光从这些耀眼的头条新闻转向真实的经济世界时,却发现一个令人困惑的现象:AI在基准测试上的突破,并没有转化为各行各业实质性的生产力飞跃。金融、法律、工程、制造……这些占据GDP大头的核心行业,依然运转如旧,AI的影子在这里若有若无。

这究竟是为什么?研究团队认为,问题的根源在于我们用来衡量AI能力的"考卷"本身出了问题。现有的AI基准测试就像只考学生背诵课文,却不考他们能不能在真实工作中解决实际问题。于是,他们决定亲手出一套真正能反映"职场实战"的考卷——Agents' Last Exam由此诞生。

一、为什么现有的AI考题都考偏了?

回到我们熟悉的学校场景。一个学生在课堂上背得滚瓜烂熟,月考年年满分,但一旦走进真实的工厂车间、医院手术室或律师事务所,却手足无措——这样的情况并不罕见。现有的AI测试基准,恰恰面临着类似的困境。

研究团队系统梳理了市面上最具代表性的AI基准测试,发现它们大致落入两个陷阱。一类是"知识问答型"测试,比如大名鼎鼎的MMLU(涵盖数万道多学科选择题)、GPQA(研究生级别的科学难题)以及HLE(专家级学术问答),这些测试能衡量AI"知道什么",但无法衡量AI"能做什么"。另一类是"操作演示型"测试,比如OSWorld(测试AI操控桌面软件的能力)、SWE-bench(测试AI修复真实代码错误的能力)、WebArena(模拟网页操作任务)等,这些测试虽然引入了多步骤交互,但覆盖的行业领域极其有限,往往只涉及五六个软件相关领域,而且任务来源多为研究人员自行设计,而非真实职业场景的还原。

最接近真实经济价值的两个基准是GDPval和RLI(Remote Labor Index,远程劳动力指数),前者评估AI在高GDP职业中完成项目级任务的能力,后者通过Upwork平台的真实外包任务来衡量AI自动化远程工作的潜力。这两个基准已经走在了正确的方向上,但它们依然只覆盖了55个行业分类中的16个和14个,而且评分完全依赖人工专家打分——代价高昂,难以大规模推广。

简而言之,所有现有基准在真实性、广度、可验证性三个维度上,至少在其中一项上存在明显短板。Agents' Last Exam的目标,正是要同时打通这三道关卡。

二、这张"最后的考卷"究竟考什么?

ALE的设计逻辑,是以美国联邦劳工部的职业分类体系(SOC 2018)和职业信息网络(O*NET)为骨架,系统地绘制出现代数字经济中所有主要职业类别,然后从中筛选出那些"核心工作可以在电脑上完成、依赖专业知识、产出可以客观评估"的职业领域,最终形成了一个涵盖13个大类、55个细分领域的行业分类体系。

这13个大类包括:工程与建筑、生命科学、教育与信息、农业与环境、计算与数学科学、健康与医学、交通与安全、心理学与神经科学、视觉与媒体艺术、商业与金融、物理科学、社会科学,以及法律。每一个大类下面,又细分为若干更具体的专业方向。举几个具体的例子:工程与建筑大类下面包括制造与工业系统(173个任务实例)、航空与机械工程(47个)、土木建筑与地理空间工程(33个)等;视觉与媒体艺术大类下面包括3D动画与交互媒体(133个)、音频音乐与后期制作(69个)等。

在这55个细分领域中,ALE共收录了1490个可运行的任务实例,涵盖960个不同的工作流程。值得注意的是,研究团队并非闭门造车——每一个任务都来自真实的领域专家,是专家们在日常工作中实际完成过的项目。一位建筑工程师可能提交了一个用SolidWorks将2D蓝图转换为3D模型的完整流程,一位生物信息学家可能贡献了一套单细胞RNA测序数据的聚类分析管道,一位财务分析师可能上传了一份SEC 10-K财务报告的结构化解析任务。

为了确保任务的质量和难度,所有提交都要经过严格的五道审核关卡:专家招募、任务提交与编辑、初审(类似学术论文的同行评审,分为大修、小修、边界接受、接受、强力接受五个等级)、工程实现(由工程团队将专家描述转化为可执行的测试环境)、最终质量控制(专家委员会的同行评审,检验参考输出是否正确、评分标准是否合理校准)。只有通过全部五道关卡的任务,才能正式进入ALE题库。

三、三道"入场门槛":什么样的任务才算合格?

既然ALE以"真实、复杂、可验证"为核心准则,那么在设计任务时,研究团队为每个准入任务设定了三条明确的标准,可以用一场"厨艺大赛"来理解。

第一条标准是"真实性"。参赛选手必须用专业厨房里真正使用的设备和食材来烹饪,而不是用简化版的玩具厨具。具体到AI测试,意味着任务必须使用领域专家实际工作中会用到的专业软件和工具。比如,建筑设计师通常会使用SolidWorks或Rhino来进行3D建模,而不是AutoCAD;射频电路设计师会使用Keysight ADS,而不是通用的绘图软件。如果一个任务让AI用错误的工具完成工作,即使完成了也不能说明AI真正掌握了这个职业的核心能力。

第二条标准是"复杂性"。这道菜必须是一道需要多个步骤、多种技法、耗时数小时才能完成的"大菜",而不是一道几分钟就能做好的简单点心。研究团队特别强调,任务应该是一个完整的"端到端工作流程",而不是一个单一的操作动作。他们给出了一个反面例子:在DaVinci Resolve(一款专业视频剪辑软件)里"应用一个颜色滤镜",这只是一个单一的局部操作,太简单了。而一个合格的任务例子是"把一只奔跑的猎豹融入另一段赛跑视频中"——这需要同时完成目标跟踪、抠像(去除背景)、视频合成和色彩匹配四个相互关联的步骤,才算是真正意义上的完整工作流程。

第三条标准是"可验证性"。菜做好了,必须能客观地评判好坏,而不是靠一句"感觉还行"来打分。ALE追求的是确定性的评分方式:要么直接将输出结果与标准答案进行对比,要么有一套清晰的、基于可测量指标的评分准则。反面例子是"用RPGMaker设计一个有怪物的RPG游戏"——这个任务没有客观的评判标准,怪物放哪里、游戏有没有意思,全凭感觉。而正面例子是"用RPGMaker XP复现游戏mota.exe"——这个任务可以通过自动化脚本,在相同的游戏操作序列下,对比地图几何结构、角色属性和事件状态,给出明确的分数。

四、AI"考场"是怎么搭建的?

每一道ALE题目,在技术层面都是一个精心构建的"考场环境"。用一个熟悉的比喻来理解:考生(AI系统)坐进一间装备齐全的专业工作室,工作室里有一台远程云端虚拟机,机器上预装了任务所需的所有专业软件,工作台上放着任务的输入材料(比如设计文件、原始数据、参考资料),考生需要在规定时间内完成工作,并将成果放到指定的输出文件夹里,最后由自动评分程序来判断成果的质量。

具体来说,每个任务的技术规格由一个名为main.py的核心脚本来定义,这个脚本包含三个关键函数。第一个函数load()负责"宣布考题",告诉AI任务的自然语言描述、所需的计算资源等基本信息。第二个函数start()负责"布置考场",将虚拟机初始化为一个确定的起始状态,把输入文件放到正确的位置,启动必要的软件。第三个函数evaluate()负责"阅卷打分",在AI完成任务后,将输出结果与隐藏的标准答案进行比较,返回一个0到1之间的分数。

虚拟机的文件系统有四个固定的目录:input/目录存放AI可以读取的输入材料,software/目录存放预安装的专业软件,output/目录是AI唯一被允许写入成果的地方,reference/目录存放标准答案,对AI完全隐藏,只有评分程序才能访问。这种设计确保了评测的公平性和可重复性——任何AI系统,只要能通过标准的动作接口与环境交互(发出命令、操控界面、读写文件),就可以接受同样的测试。

在评分方式上,ALE根据不同任务类型采用了多种模式,但始终坚持一个原则:能用确定性代码评分的,绝不用AI大模型来当评委。大约93%的任务采用基于代码的确定性评分,只有约7%的任务(主要是渲染场景、音乐制作、动画预览等需要人眼判断的视觉创意类任务)才会用AI视觉模型来辅助评分,但即便如此,评分提示词也极其具体,要求评委只回答"是/否"这样的明确问题,而不是给出模糊的整体评价。

研究团队还对评分方式进行了精细分类。精确匹配或哈希比对适用于网络安全(比如找到正确的密钥)和数学任务(比如计算出精确答案)。结构化表格/数值比对适用于金融、会计和临床数据任务(比如从财务报告中提取具体的数字字段)。几何/空间距离评分适用于3D建模任务(比如比较两个网格模型的表面偏差)。视觉外观评分适用于视觉创意类任务(由AI视觉模型对比输出图像和参考图像)。行为/世界状态评分适用于游戏和模拟任务(在固定操作序列下比对系统状态)。可执行制品评分适用于代码和数据管道任务(运行输出程序并检查结果)。

五、谁来参加这场考试?——AI"考生"的能力分类

ALE的测试对象是研究团队称之为"通用计算机使用智能体"(Generalist Computer-Use Agent,简称GCUA)的新一代AI系统。这类AI需要同时具备五层能力,就像一名全能工程师既要有大脑(思考规划)、眼睛(看懂屏幕)、身体(统筹协调)、双手(使用工具)和双脚(在真实环境中运行)。

研究团队将现有AI系统分为三类来理解这种差异。传统的命令行智能体(CLI Agents),比如SWE-agent和ForgeCode,有大脑、身体、双手和双脚,但没有眼睛——它们无法读取图形界面,只能通过文字命令和代码操作系统。图形界面智能体(GUI Agents),比如一些基于视觉语言模型的系统,有大脑和眼睛,但双手不灵活(主要只会鼠标和键盘操作)、身体协调能力有限、双脚也受限——它们可以看屏幕,但无法写复杂代码、管理大型文件或维持长时间的复杂工作流程。只有通用计算机使用智能体,才同时具备全部五层能力,能够在一个任务中随时切换命令行操作、图形界面交互、代码编写、文件管理和网络搜索。

在测试中,研究团队采用"图形界面即工具"(GUI-as-Tool)的方式来增强现有的命令行原生智能体:通过一个标准的MCP服务器,向智能体暴露14个桌面操作工具(包括键盘输入、鼠标点击、拖拽、截图等),使它们也能处理需要图形界面的任务。这样,所有参与测评的AI系统都在统一的GCUA框架下接受测试。

六、这场考试的成绩如何?——令人清醒的实验结果

结果出来了,而且相当耐人寻味。ALE将150道公开题目划分为三个难度等级:近期目标级(Near-Term,59道题,当前顶尖AI能部分完成的任务)、全谱级(Full-Spectrum,55道题,覆盖全部55个行业的综合测试)和最终考试级(Last-Exam,36道题,绝大多数AI完全束手无策的最难任务)。

在最强的配置组合下——OpenAI的Codex代理搭配GPT-5.5模型——AI在近期目标级任务上的完整通过率达到了42.4%,平均得分约70.7分;在全谱级上完整通过率降到20%,在最终考试级上仅有8.6%。综合三个等级的整体完整通过率为26.2%。这意味着,即使是目前最强的AI系统,在最难的一级任务上,约91%的情况都会失败。

相比之下,同样是Codex搭配GPT-5.5的配置,在另一个命令行专项基准测试Terminal-Bench上能达到82%的通过率。但在ALE的仅限命令行任务子集(ALE-CLI)中,同样的配置整体通过率只有25.2%,其中最难等级仅4.5%。这个对比生动说明:ALE的难度远超现有针对性测试,真实的职业工作流程与局限的基准测试任务之间,存在巨大的能力鸿沟。

在模型层面,GPT-5.5和Claude Opus 4.7是目前表现最好的两个底层模型,但不同模型之间的性能差距(整体通过率相差约18个百分点)远远大于不同代理框架之间的差距(相差约5-6个百分点)。这说明,在相似的工程水平下,底层模型的推理能力和领域知识是决定AI能否通过这场考试的最关键因素。换句话说,再好的"考试技巧",也弥补不了"基础知识"的不足。

从领域分布来看,计算与数学科学和农业与环境领域得分相对较高(约60%),而视觉与媒体艺术和教育领域得分最低(低于30%)。这反映了现有AI模型在训练数据上的结构性不均衡:与代码相关的领域获得了大量训练资源,而专业创意和教育技术类工作流程则严重欠缺覆盖。

七、AI为什么会失败?——一张失败原因的地图

研究团队对Claude Code搭配Claude Opus 4.7在公开题目上失败的案例进行了系统性的归因分析。分析结果描绘出一幅清晰的失败原因地图。

约47%的失败属于"方法选择错误":AI要么选错了解题策略(30%),要么中途放弃、没有产出完整的交付物(17%)。约31%的失败属于"理解层面的问题":其中25%是因为缺乏专业领域知识——如果一个真正的领域专家来做这道题,就不会犯这样的错误;另外6%是因为AI凭空捏造了数据或结果。剩余22%属于"执行层面的问题":输出格式错误(10%)、代码逻辑错误(8%)和图形界面操作失败(4%)。

一个特别值得关注的规律是:当AI缺乏足够的专业知识时,它往往会"绕道而行"——用临时编写的自定义脚本来替代应该使用的专业软件。这种行为不仅降低了任务完成质量,还进一步造成了"图形界面使用率远低于任务实际需求"的现象。在全部公开题目中,34%的任务指定使用图形界面软件作为主要工具,但在大多数AI的实际操作记录中,图形界面操作的比例都远低于这个数字。AI在用"用命令行写脚本"来替代"用专业GUI软件操作",而这恰恰是它失败的根源所在。

八、如何防止考题泄露?——公私分开的题库策略

任何考试都面临一个根本性挑战:题目一旦公开,就可能被提前刷题或记忆。对于AI系统来说,这个问题更加棘手,因为AI的训练数据可能包含了网络上大量公开的测试案例,导致AI"见过题目"而非真正具备能力。

ALE对此采用了一个聪明的解决方案:公私分开。在1490个任务实例中,只有150个(约10%)向公众开放,其余的1017个私有任务和323个待验证任务都保存在私有题库中。参与排行榜竞争的AI系统通过标准接口提交,由研究团队在私有环境中运行评测,再公布成绩——这类似于高考的保密制度,题目在考前严格封存。

归根结底,ALE的意义不在于又多了一个AI排行榜,而在于它试图回答一个更深刻的问题:当AI系统真的能在这份考卷上取得高分,那一刻意味着什么?研究团队的答案是:那将意味着AI已经具备了在真实职业环境中持续、独立地完成有经济价值的专业工作的能力——不是"能回答关于这份工作的问题",而是"能真正做这份工作"。那个时刻,AI对经济的影响就不再只是基准测试上的数字,而会开始真实地体现在各行各业的生产力数据中。

目前,这张"最后的考卷"还远未被任何AI答完。最难的一级任务,对绝大多数AI系统来说几乎是一道无解之题。但这本身就是研究团队的设计意图:设置一个需要当前系统持续努力才能逐步攻克的长期目标,让每一次进步都真正对应着AI在现实世界中能力的提升,而不仅仅是在某个精心设计的测试场景里的表现。

这项研究的完整论文可以通过arXiv编号2606.05405查阅。

Q&A

Q1:Agents' Last Exam(ALE)和其他AI测试基准有什么本质区别?

A:ALE最大的不同在于三点同时成立:任务来自真实领域专家的真实工作项目(不是研究人员自己设计的),覆盖了55个不同行业(现有基准最多覆盖16个),而且评分完全自动化(不需要昂贵的人工专家打分)。过去的基准往往只能做到其中一两点,ALE是第一个三点全部达到的。

Q2:目前最强的AI在ALE上通过率是多少?

A:目前表现最好的组合是Codex代理搭配GPT-5.5模型,在最简单的"近期目标"级任务上完整通过率约42%,在最难的"最终考试"级任务上仅有8.6%,综合三个难度等级的整体通过率约26%。绝大多数主流AI系统在最难级别的通过率接近于零。

Q3:ALE的任务评分是怎么做到不靠人工评判的?

A:ALE约93%的任务使用确定性代码来打分,比如对比文件内容、检查数字是否在误差范围内、测量3D模型的几何偏差等。只有约7%需要判断视觉效果的创意类任务才用AI视觉模型辅助,但即便如此也只问具体的是非题,不允许模糊的整体评价。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。