卡内基梅隆大学与斯坦福大学的一项最新联合研究指出,当前人工智能智能体(AI Agent)的发展正陷入严重的“路径依赖”。研究显示,现有的 AI 测评基准高度集中于编程任务,却忽视了占美国劳动力市场 92% 的非编程领域。
研究人员系统分析了 43 个主流 AI 基准中的 7.2 万个任务,并将其与美国政府 O*NET 职业数据库中的 1016 种真实职业进行对比。
调查发现的失衡现状:
数字化行业的“基准盲区”:尽管管理类工作的数字化程度高达 88%,但在现有 AI 基准测试中仅占 1.4%;法律工作数字化程度为 70%,其在基准测试中的占比仅为 0.3%。
技能覆盖严重脱节:当前的 AI 测评主要考量“获取信息”和“计算机操作”这两类技能,它们仅覆盖了不到 5% 的美国就业岗位。而现实工作中至关重要的“人际互动”分类,在现有的 AI 测试中几乎无人问津。
复杂度增加导致“能力跳水”:研究发现,AI 智能体的自主性在面对复杂任务时表现极差。即便是在最擅长的软件开发领域,一旦任务步骤增多、逻辑变复杂,AI 的成功率就会出现断崖式下跌。
研究者呼吁,未来的 AI 基准测试应向管理、法律、建筑及工程等高价值、高数字化领域倾斜。同时,测评不应只关注最终结果,更应关注 AI 在执行过程中的中间步骤,以解决目标模糊和验证周期长等现实痛点。
这一结论也得到了市场数据的印证。Anthropic 近期分析显示,其 API 调用中近 50% 仍集中在软件开发。专家警告称,如果 AI 开发继续盲目追求易于自动评分的编程任务,可能会错失 AI 在更广泛经济领域发挥生产力价值的最佳时机。





京公网安备 11011402013531号