当前位置：首页 » 资讯 » 新科技 » 正文

加州大学伯克利分校推出史上最难AI代理测试基准

IP属地中国·北京 科技行者 时间：2026-06-16 18:23:56

这项由加州大学伯克利分校主导、联合斯坦福大学、密歇根大学、华盛顿大学等数十家高校及产业机构共同完成的研究，于2026年6月3日以预印本形式发布，编号为arXiv:2606.05405。研究团队超过250名来自学术界和产业界的领域专家共同参与，历时数月打造了一个名为"Agents' Last Exam"（简称ALE，中文意为"智能体的最后一考"）的全新AI评测基准。
过去几年，人工智能系统接连攻克了一道又一道被认为"难以逾越"的关卡——从围棋世界冠军到数学奥林匹克金牌，再到国际大学生编程竞赛桂冠，AI的"战绩"令人目不暇接。然而，每当人们把目光从这些耀眼的头条新闻转向真实的经济世界时，却发现一个令人困惑的现象：AI在基准测试上的突破，并没有转化为各行各业实质性的生产力飞跃。金融、法律、工程、制造……这些占据GDP大头的核心行业，依然运转如旧，AI的影子在这里若有若无。
这究竟是为什么？研究团队认为，问题的根源在于我们用来衡量AI能力的"考卷"本身出了问题。现有的AI基准测试就像只考学生背诵课文，却不考他们能不能在真实工作中解决实际问题。于是，他们决定亲手出一套真正能反映"职场实战"的考卷——Agents' Last Exam由此诞生。
一、为什么现有的AI考题都考偏了？
回到我们熟悉的学校场景。一个学生在课堂上背得滚瓜烂熟，月考年年满分，但一旦走进真实的工厂车间、医院手术室或律师事务所，却手足无措——这样的情况并不罕见。现有的AI测试基准，恰恰面临着类似的困境。
研究团队系统梳理了市面上最具代表性的AI基准测试，发现它们大致落入两个陷阱。一类是"知识问答型"测试，比如大名鼎鼎的MMLU（涵盖数万道多学科选择题）、GPQA（研究生级别的科学难题）以及HLE（专家级学术问答），这些测试能衡量AI"知道什么"，但无法衡量AI"能做什么"。另一类是"操作演示型"测试，比如OSWorld（测试AI操控桌面软件的能力）、SWE-bench（测试AI修复真实代码错误的能力）、WebArena（模拟网页操作任务）等，这些测试虽然引入了多步骤交互，但覆盖的行业领域极其有限，往往只涉及五六个软件相关领域，而且任务来源多为研究人员自行设计，而非真实职业场景的还原。
最接近真实经济价值的两个基准是GDPval和RLI（Remote Labor Index，远程劳动力指数），前者评估AI在高GDP职业中完成项目级任务的能力，后者通过Upwork平台的真实外包任务来衡量AI自动化远程工作的潜力。这两个基准已经走在了正确的方向上，但它们依然只覆盖了55个行业分类中的16个和14个，而且评分完全依赖人工专家打分——代价高昂，难以大规模推广。
简而言之，所有现有基准在真实性、广度、可验证性三个维度上，至少在其中一项上存在明显短板。Agents' Last Exam的目标，正是要同时打通这三道关卡。
二、这张"最后的考卷"究竟考什么？
ALE的设计逻辑，是以美国联邦劳工部的职业分类体系（SOC 2018）和职业信息网络（O*NET）为骨架，系统地绘制出现代数字经济中所有主要职业类别，然后从中筛选出那些"核心工作可以在电脑上完成、依赖专业知识、产出可以客观评估"的职业领域，最终形成了一个涵盖13个大类、55个细分领域的行业分类体系。
这13个大类包括：工程与建筑、生命科学、教育与信息、农业与环境、计算与数学科学、健康与医学、交通与安全、心理学与神经科学、视觉与媒体艺术、商业与金融、物理科学、社会科学，以及法律。每一个大类下面，又细分为若干更具体的专业方向。举几个具体的例子：工程与建筑大类下面包括制造与工业系统（173个任务实例）、航空与机械工程（47个）、土木建筑与地理空间工程（33个）等；视觉与媒体艺术大类下面包括3D动画与交互媒体（133个）、音频音乐与后期制作（69个）等。
在这55个细分领域中，ALE共收录了1490个可运行的任务实例，涵盖960个不同的工作流程。值得注意的是，研究团队并非闭门造车——每一个任务都来自真实的领域专家，是专家们在日常工作中实际完成过的项目。一位建筑工程师可能提交了一个用SolidWorks将2D蓝图转换为3D模型的完整流程，一位生物信息学家可能贡献了一套单细胞RNA测序数据的聚类分析管道，一位财务分析师可能上传了一份SEC 10-K财务报告的结构化解析任务。
为了确保任务的质量和难度，所有提交都要经过严格的五道审核关卡：专家招募、任务提交与编辑、初审（类似学术论文的同行评审，分为大修、小修、边界接受、接受、强力接受五个等级）、工程实现（由工程团队将专家描述转化为可执行的测试环境）、最终质量控制（专家委员会的同行评审，检验参考输出是否正确、评分标准是否合理校准）。只有通过全部五道关卡的任务，才能正式进入ALE题库。
三、三道"入场门槛"：什么样的任务才算合格？
既然ALE以"真实、复杂、可验证"为核心准则，那么在设计任务时，研究团队为每个准入任务设定了三条明确的标准，可以用一场"厨艺大赛"来理解。
第一条标准是"真实性"。参赛选手必须用专业厨房里真正使用的设备和食材来烹饪，而不是用简化版的玩具厨具。具体到AI测试，意味着任务必须使用领域专家实际工作中会用到的专业软件和工具。比如，建筑设计师通常会使用SolidWorks或Rhino来进行3D建模，而不是AutoCAD；射频电路设计师会使用Keysight ADS，而不是通用的绘图软件。如果一个任务让AI用错误的工具完成工作，即使完成了也不能说明AI真正掌握了这个职业的核心能力。
第二条标准是"复杂性"。这道菜必须是一道需要多个步骤、多种技法、耗时数小时才能完成的"大菜"，而不是一道几分钟就能做好的简单点心。研究团队特别强调，任务应该是一个完整的"端到端工作流程"，而不是一个单一的操作动作。他们给出了一个反面例子：在DaVinci Resolve（一款专业视频剪辑软件）里"应用一个颜色滤镜"，这只是一个单一的局部操作，太简单了。而一个合格的任务例子是"把一只奔跑的猎豹融入另一段赛跑视频中"——这需要同时完成目标跟踪、抠像（去除背景）、视频合成和色彩匹配四个相互关联的步骤，才算是真正意义上的完整工作流程。
第三条标准是"可验证性"。菜做好了，必须能客观地评判好坏，而不是靠一句"感觉还行"来打分。ALE追求的是确定性的评分方式：要么直接将输出结果与标准答案进行对比，要么有一套清晰的、基于可测量指标的评分准则。反面例子是"用RPGMaker设计一个有怪物的RPG游戏"——这个任务没有客观的评判标准，怪物放哪里、游戏有没有意思，全凭感觉。而正面例子是"用RPGMaker XP复现游戏mota.exe"——这个任务可以通过自动化脚本，在相同的游戏操作序列下，对比地图几何结构、角色属性和事件状态，给出明确的分数。
四、AI"考场"是怎么搭建的？
每一道ALE题目，在技术层面都是一个精心构建的"考场环境"。用一个熟悉的比喻来理解：考生（AI系统）坐进一间装备齐全的专业工作室，工作室里有一台远程云端虚拟机，机器上预装了任务所需的所有专业软件，工作台上放着任务的输入材料（比如设计文件、原始数据、参考资料），考生需要在规定时间内完成工作，并将成果放到指定的输出文件夹里，最后由自动评分程序来判断成果的质量。
具体来说，每个任务的技术规格由一个名为main.py的核心脚本来定义，这个脚本包含三个关键函数。第一个函数load()负责"宣布考题"，告诉AI任务的自然语言描述、所需的计算资源等基本信息。第二个函数start()负责"布置考场"，将虚拟机初始化为一个确定的起始状态，把输入文件放到正确的位置，启动必要的软件。第三个函数evaluate()负责"阅卷打分"，在AI完成任务后，将输出结果与隐藏的标准答案进行比较，返回一个0到1之间的分数。
虚拟机的文件系统有四个固定的目录：input/目录存放AI可以读取的输入材料，software/目录存放预安装的专业软件，output/目录是AI唯一被允许写入成果的地方，reference/目录存放标准答案，对AI完全隐藏，只有评分程序才能访问。这种设计确保了评测的公平性和可重复性——任何AI系统，只要能通过标准的动作接口与环境交互（发出命令、操控界面、读写文件），就可以接受同样的测试。
在评分方式上，ALE根据不同任务类型采用了多种模式，但始终坚持一个原则：能用确定性代码评分的，绝不用AI大模型来当评委。大约93%的任务采用基于代码的确定性评分，只有约7%的任务（主要是渲染场景、音乐制作、动画预览等需要人眼判断的视觉创意类任务）才会用AI视觉模型来辅助评分，但即便如此，评分提示词也极其具体，要求评委只回答"是/否"这样的明确问题，而不是给出模糊的整体评价。
研究团队还对评分方式进行了精细分类。精确匹配或哈希比对适用于网络安全（比如找到正确的密钥）和数学任务（比如计算出精确答案）。结构化表格/数值比对适用于金融、会计和临床数据任务（比如从财务报告中提取具体的数字字段）。几何/空间距离评分适用于3D建模任务（比如比较两个网格模型的表面偏差）。视觉外观评分适用于视觉创意类任务（由AI视觉模型对比输出图像和参考图像）。行为/世界状态评分适用于游戏和模拟任务（在固定操作序列下比对系统状态）。可执行制品评分适用于代码和数据管道任务（运行输出程序并检查结果）。
五、谁来参加这场考试？——AI"考生"的能力分类
ALE的测试对象是研究团队称之为"通用计算机使用智能体"（Generalist Computer-Use Agent，简称GCUA）的新一代AI系统。这类AI需要同时具备五层能力，就像一名全能工程师既要有大脑（思考规划）、眼睛（看懂屏幕）、身体（统筹协调）、双手（使用工具）和双脚（在真实环境中运行）。
研究团队将现有AI系统分为三类来理解这种差异。传统的命令行智能体（CLI Agents），比如SWE-agent和ForgeCode，有大脑、身体、双手和双脚，但没有眼睛——它们无法读取图形界面，只能通过文字命令和代码操作系统。图形界面智能体（GUI Agents），比如一些基于视觉语言模型的系统，有大脑和眼睛，但双手不灵活（主要只会鼠标和键盘操作）、身体协调能力有限、双脚也受限——它们可以看屏幕，但无法写复杂代码、管理大型文件或维持长时间的复杂工作流程。只有通用计算机使用智能体，才同时具备全部五层能力，能够在一个任务中随时切换命令行操作、图形界面交互、代码编写、文件管理和网络搜索。
在测试中，研究团队采用"图形界面即工具"（GUI-as-Tool）的方式来增强现有的命令行原生智能体：通过一个标准的MCP服务器，向智能体暴露14个桌面操作工具（包括键盘输入、鼠标点击、拖拽、截图等），使它们也能处理需要图形界面的任务。这样，所有参与测评的AI系统都在统一的GCUA框架下接受测试。
六、这场考试的成绩如何？——令人清醒的实验结果
结果出来了，而且相当耐人寻味。ALE将150道公开题目划分为三个难度等级：近期目标级（Near-Term，59道题，当前顶尖AI能部分完成的任务）、全谱级（Full-Spectrum，55道题，覆盖全部55个行业的综合测试）和最终考试级（Last-Exam，36道题，绝大多数AI完全束手无策的最难任务）。
在最强的配置组合下——OpenAI的Codex代理搭配GPT-5.5模型——AI在近期目标级任务上的完整通过率达到了42.4%，平均得分约70.7分；在全谱级上完整通过率降到20%，在最终考试级上仅有8.6%。综合三个等级的整体完整通过率为26.2%。这意味着，即使是目前最强的AI系统，在最难的一级任务上，约91%的情况都会失败。
相比之下，同样是Codex搭配GPT-5.5的配置，在另一个命令行专项基准测试Terminal-Bench上能达到82%的通过率。但在ALE的仅限命令行任务子集（ALE-CLI）中，同样的配置整体通过率只有25.2%，其中最难等级仅4.5%。这个对比生动说明：ALE的难度远超现有针对性测试，真实的职业工作流程与局限的基准测试任务之间，存在巨大的能力鸿沟。
在模型层面，GPT-5.5和Claude Opus 4.7是目前表现最好的两个底层模型，但不同模型之间的性能差距（整体通过率相差约18个百分点）远远大于不同代理框架之间的差距（相差约5-6个百分点）。这说明，在相似的工程水平下，底层模型的推理能力和领域知识是决定AI能否通过这场考试的最关键因素。换句话说，再好的"考试技巧"，也弥补不了"基础知识"的不足。
从领域分布来看，计算与数学科学和农业与环境领域得分相对较高（约60%），而视觉与媒体艺术和教育领域得分最低（低于30%）。这反映了现有AI模型在训练数据上的结构性不均衡：与代码相关的领域获得了大量训练资源，而专业创意和教育技术类工作流程则严重欠缺覆盖。
七、AI为什么会失败？——一张失败原因的地图
研究团队对Claude Code搭配Claude Opus 4.7在公开题目上失败的案例进行了系统性的归因分析。分析结果描绘出一幅清晰的失败原因地图。
约47%的失败属于"方法选择错误"：AI要么选错了解题策略（30%），要么中途放弃、没有产出完整的交付物（17%）。约31%的失败属于"理解层面的问题"：其中25%是因为缺乏专业领域知识——如果一个真正的领域专家来做这道题，就不会犯这样的错误；另外6%是因为AI凭空捏造了数据或结果。剩余22%属于"执行层面的问题"：输出格式错误（10%）、代码逻辑错误（8%）和图形界面操作失败（4%）。
一个特别值得关注的规律是：当AI缺乏足够的专业知识时，它往往会"绕道而行"——用临时编写的自定义脚本来替代应该使用的专业软件。这种行为不仅降低了任务完成质量，还进一步造成了"图形界面使用率远低于任务实际需求"的现象。在全部公开题目中，34%的任务指定使用图形界面软件作为主要工具，但在大多数AI的实际操作记录中，图形界面操作的比例都远低于这个数字。AI在用"用命令行写脚本"来替代"用专业GUI软件操作"，而这恰恰是它失败的根源所在。
八、如何防止考题泄露？——公私分开的题库策略
任何考试都面临一个根本性挑战：题目一旦公开，就可能被提前刷题或记忆。对于AI系统来说，这个问题更加棘手，因为AI的训练数据可能包含了网络上大量公开的测试案例，导致AI"见过题目"而非真正具备能力。
ALE对此采用了一个聪明的解决方案：公私分开。在1490个任务实例中，只有150个（约10%）向公众开放，其余的1017个私有任务和323个待验证任务都保存在私有题库中。参与排行榜竞争的AI系统通过标准接口提交，由研究团队在私有环境中运行评测，再公布成绩——这类似于高考的保密制度，题目在考前严格封存。
归根结底，ALE的意义不在于又多了一个AI排行榜，而在于它试图回答一个更深刻的问题：当AI系统真的能在这份考卷上取得高分，那一刻意味着什么？研究团队的答案是：那将意味着AI已经具备了在真实职业环境中持续、独立地完成有经济价值的专业工作的能力——不是"能回答关于这份工作的问题"，而是"能真正做这份工作"。那个时刻，AI对经济的影响就不再只是基准测试上的数字，而会开始真实地体现在各行各业的生产力数据中。
目前，这张"最后的考卷"还远未被任何AI答完。最难的一级任务，对绝大多数AI系统来说几乎是一道无解之题。但这本身就是研究团队的设计意图：设置一个需要当前系统持续努力才能逐步攻克的长期目标，让每一次进步都真正对应着AI在现实世界中能力的提升，而不仅仅是在某个精心设计的测试场景里的表现。
这项研究的完整论文可以通过arXiv编号2606.05405查阅。
Q&A
Q1：Agents' Last Exam（ALE）和其他AI测试基准有什么本质区别？
A：ALE最大的不同在于三点同时成立：任务来自真实领域专家的真实工作项目（不是研究人员自己设计的），覆盖了55个不同行业（现有基准最多覆盖16个），而且评分完全自动化（不需要昂贵的人工专家打分）。过去的基准往往只能做到其中一两点，ALE是第一个三点全部达到的。
Q2：目前最强的AI在ALE上通过率是多少？
A：目前表现最好的组合是Codex代理搭配GPT-5.5模型，在最简单的"近期目标"级任务上完整通过率约42%，在最难的"最终考试"级任务上仅有8.6%，综合三个难度等级的整体通过率约26%。绝大多数主流AI系统在最难级别的通过率接近于零。
Q3：ALE的任务评分是怎么做到不靠人工评判的？
A：ALE约93%的任务使用确定性代码来打分，比如对比文件内容、检查数字是否在误差范围内、测量3D模型的几何偏差等。只有约7%需要判断视觉效果的创意类任务才用AI视觉模型辅助，但即便如此也只问具体的是非题，不允许模糊的整体评价。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

DeepSeek V4正式版来了！Agent能力大幅升级，Harness能力首次亮相

36氪独家｜曾爱玲入职B站担任AI视频生成业务负责人，向CEO陈睿汇报

第一到第六，全是中国大模型

马斯克最新定调：5年内AI超越全人类智力、美国挡不住中国成为AI领跑者

横扫五大手游电竞赛事，稳坐电竞“神U”，骁龙下一站：用AI颠覆游戏世界

暴增389%！DeepSeek卷到白菜价，这家公司却靠卖Token赚翻了

全站最新

DeepSeek V4正式版来了！Agent能力大幅升级，Harness能力首次亮相

36氪独家｜曾爱玲入职B站担任AI视频生成业务负责人，向CEO陈睿汇报

第一到第六，全是中国大模型

马斯克最新定调：5年内AI超越全人类智力、美国挡不住中国成为AI领跑者

热门推荐

DeepSeek V4正式版来了！Agent能力大幅升级，Harness能力首次亮相

36氪独家｜曾爱玲入职B站担任AI视频生成业务负责人，向CEO陈睿汇报

第一到第六，全是中国大模型

马斯克最新定调：5年内AI超越全人类智力、美国挡不住中国成为AI领跑者

横扫五大手游电竞赛事，稳坐电竞“神U”，骁龙下一站：用AI颠覆游戏世界

暴增389%！DeepSeek卷到白菜价，这家公司却靠卖Token赚翻了

百度萝卜快跑法务部：部分网络账号恶意制造误导性内容，已提起诉讼

租台自动驾驶汽车旅游！订单取消了车还在跑全家被困车内下不来

508天涅槃重生，荣耀做对了什么？

一周锁单5000台！比亚迪K-Car海獭日本爆单：年底1万台目标7天干完一半

吉利将设立2030实验室强化前瞻技术创新与研究，并全面推进燃油车HEV化

东风风行星海V6将于8月8日预售，搭载华为乾崑大六座

REDMI K100 Pro系列官宣8月11日发布，“赤霞珠红”配色ChinaJoy首秀

前脚套现44亿，千亿“存储教父”欲反手10亿“抄底”？

MiniMax H3通用多模态视频模型将于8月3日开源，最高可支持15s 2K分辨率