当前位置：首页 » 资讯 » 新科技 » 正文

研究预警：AI 智能体测试过于“偏科”编程，忽视了 92% 的真实劳动力市场

IP属地中国·北京 编辑：陆辰风 Chinaz 时间：2026-03-09 14:27:33

卡内基梅隆大学与斯坦福大学的一项最新联合研究指出，当前人工智能智能体（AI Agent）的发展正陷入严重的“路径依赖”。研究显示，现有的 AI 测评基准高度集中于编程任务，却忽视了占美国劳动力市场 92% 的非编程领域。
研究人员系统分析了 43 个主流 AI 基准中的 7.2 万个任务，并将其与美国政府 O*NET 职业数据库中的 1016 种真实职业进行对比。
调查发现的失衡现状：
数字化行业的“基准盲区”：尽管管理类工作的数字化程度高达 88%，但在现有 AI 基准测试中仅占 1.4%；法律工作数字化程度为 70%，其在基准测试中的占比仅为 0.3%。
技能覆盖严重脱节：当前的 AI 测评主要考量“获取信息”和“计算机操作”这两类技能，它们仅覆盖了不到 5% 的美国就业岗位。而现实工作中至关重要的“人际互动”分类，在现有的 AI 测试中几乎无人问津。
复杂度增加导致“能力跳水”：研究发现，AI 智能体的自主性在面对复杂任务时表现极差。即便是在最擅长的软件开发领域，一旦任务步骤增多、逻辑变复杂，AI 的成功率就会出现断崖式下跌。
研究者呼吁，未来的 AI 基准测试应向管理、法律、建筑及工程等高价值、高数字化领域倾斜。同时，测评不应只关注最终结果，更应关注 AI 在执行过程中的中间步骤，以解决目标模糊和验证周期长等现实痛点。
这一结论也得到了市场数据的印证。Anthropic 近期分析显示，其 API 调用中近 50% 仍集中在软件开发。专家警告称，如果 AI 开发继续盲目追求易于自动评分的编程任务，可能会错失 AI 在更广泛经济领域发挥生产力价值的最佳时机。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Windows用户请注意：微软偷偷删除Win10/11关键安全警告

暴雪皮克斯老兵的AI社交实验：声音匹配，MAU破260万，估值1.5亿

OpenClaw一夜掏空你钱包？终于有人管管了

arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合

“太空天气”阻碍外星人联系？伊朗科学家：科技文明或只能存在5000年，互相错过了

从林俊旸离职，看阿里内部技术理想与商业现实的深层博弈

全站最新

Windows用户请注意：微软偷偷删除Win10/11关键安全警告

暴雪皮克斯老兵的AI社交实验：声音匹配，MAU破260万，估值1.5亿

OpenClaw一夜掏空你钱包？终于有人管管了

arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合

热门推荐

2026年中国电影票房接近110亿元人民币，在全球占比超28%

王兴兴名下关联6家企业

极氪汽车在西宁成立销售服务公司

“龙虾”OpenClaw走红两会周鸿祎拟推OpenClaw一键安装

阿里达摩院发布 MAOSS 模型：利用 AI 筛查脂肪肝，高风险检出率翻倍

华为手环11/Pro开启预售：售价259元起

研究预警：AI 智能体测试过于“偏科”编程，忽视了 92% 的真实劳动力市场

OpenClaw 2026.3.7 版本更新：支持GPT-5.4，彻底解决智能体“断片”难题

从0到大师：用这个AI Skill，一句描述就能生成惊艳海报

Windows用户请注意：微软偷偷删除Win10/11关键安全警告

暴雪皮克斯老兵的AI社交实验：声音匹配，MAU破260万，估值1.5亿

加剧全球缺芯？3月18日，三星工会启动罢工投票

OpenClaw一夜掏空你钱包？终于有人管管了

arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合

我国宣布今年加强AI立法研究，中国法学会副会长许安标：AI立法是世界性难题，既要规范也要促进

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

研究预警：AI 智能体测试过于“偏科”编程，忽视了 92% 的真实劳动力市场

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

​研究预警：AI 智能体测试过于“偏科”编程，忽视了 92% 的真实劳动力市场

同类资讯

研究预警：AI 智能体测试过于“偏科”编程，忽视了 92% 的真实劳动力市场