当前位置：首页 » 资讯 » 新科技 » 正文

17万白领岗消失！Scale AI最新研究：AI仅动用了3%实力

IP属地中国·北京 新智元 时间：2025-11-07 00:14:13

新智元报道
编辑：桃子
AI卷走饭碗，17万大军一夜失业。别慌，Scale AI新作一锤定音：全球六大顶尖AI，现在能自动处理的事情连3%都不到。
12万大学毕业生，挤破头竞逐17000个岗位。
七分之一的机会，竟是AI堵死了就业出路。不仅如此，白领也成为了重灾区。
作为美国第二大雇主，亚马逊周二的一份内部邮件，让14000岗位一夜消失，然而更大的血腥裁员还在路上。

整个行业，正经历着前所未有的震荡。近期，多家巨头相继公布裁员计划，被削减的岗位总数高达17万。
这场「失业海啸」的背后，AI成为了罪魁祸首。

全世界看到的是：Z世代毕业没出路，办公室白领纷纷被替代，唯有「水管工」一类技能岗位相安无事。
但这些担忧，到底是杞人忧天，还只是假象？
来自Scale AI和Center for AI Safety最新研究，一句话戳破了真相：
虽然AI很聪明，但还不够实用。目前，AI自动化率还不到3%。

值得一提的是，论文参与者中，还有Alexandr Wang本尊，曾在Scale AI期间完成的研究。

论文地址：https://www.remotelabor.ai/paper.pdf
6000小时，14万美金真实工作
最新研究中，提出了一个全新基准——远程劳动指数（RLI），重点评估AI在真实世界中端到端的性能。
过去几年，顶尖实验室的AI在各种基准上「开挂」。
这一亮眼成绩让人们一度误以为，当前AI离AGI只有一步之遥。但现实呢？

这些基准大多是短任务、明确规则的学术题，与真实工作还相差着十万八千里。GPT-5距离AGI终点，也仅实现了58%。
真正有经济价值的远程工作，往往具备跨领域、长周期、高标准等特点。
远程劳动指数（RLI），就是为了填补这一空白而生。
它收录了来自远程劳动力市场的真实项目，覆盖了游戏开发、产品设计、建筑、数据分析、视频动画等领域。
下图左，展示了TOP 7工作领域。

这些项目难度跨度大，有的成本高达1万美元，完成时间超100个小时。
RLI全部数据，都来自真实自由职业者的历史订单。总计超6000小时的真实工作量，总价值超14万美元。

如下是，RLI数据的收集过程，经过了严格的筛选和清洗。一开始，研究人员选取了64大领域。
经过初筛，他们确定了43个符合条件的领域，分两个阶段来获取项目：
1 从自由职业平台获取
2 从长尾项目获取
然后，研究团队又招募了358名自由职业者，拥有经过认证Upwork账户，并且是目标领域的专家。
平均而言，他们在Upwork平台上已工作 2,341 小时，完成过89个项目，总收入达23,364美元。
为此，团队从这些自由职业者中，收集了550个初始项目，最终筛选出包含240个项目的RLI数据集。

相较于先前同类基准，RLI复杂性和多样性，更贴近真实自由职业市场的工作形态。
如下图左显示，人类完成RLI项目平均耗时，与Upwork平台真实数据分布高度吻合；
右图说明了，既有基准主要集中在软件工程、网络调研写作类任务，而真实远程劳动力市场工种，远超这一范畴。

数据集建好了，接下来就是顶尖AI真枪实战了。不过，在此之前，又该用什么指标去衡量其性能？
主要包括以下四大指标：自动化率、Elo评分、项目收益、自动化通缩。
在评估流程中，针对每个RLI项目，研究团队都会对AI交付成果进行检验——
既要与人类黄金标准交付成果进行比对，也要根据项目简报中的要求核查缺陷，最终判定该AI成果在真实自由职业场景中，是否会被采纳为合格工作产物。

那么，每个顶尖大模型的真实战绩如何？
你的饭碗，暂时保住了！
实验中，研究团队拉来了，全球六大顶尖大模型和智能体参战，分别进行了定量和定性分析。
自动化率3%，已是极限
在定量分析中，主要采用了「绝对指标」和「相对指标」进行了评估。
相较于人类基准，评估的核心结论是——
当前AI智能体在执行RLI中，具有经济价值的项目方面，能力十分有限。
所有受评估的模型中，绝对性能普遍不佳，其中最高的自动化率，Manus也仅为2.5%。

为了衡量不同模型间相对性能，研究人员采用配对比较法来计算Elo评分。
结果发现，各模型间的相对性能正在稳步提升，且排名总体上反映出新一代的前沿模型比旧模型表现更好。

世界知识不够，无法校验错误
在定性分析中，团队主要探究了当前AI系统的局限性，以及自动化率低的原因。
通过对约400份评估进行分析后，AI交付成果被拒的原因，主要归结为以下几类：
1. 技术与文件完整性问题：许多失败源于基础技术问题，比如生成了损坏或空文件，或交付的文件格式不正确、无法使用。
2. 交付成果不完整或存在缺陷：AI频繁提交不完整的作品，比如缺少关键组件、视频内容被截断或未提供源素材。
3. 质量问题：即便AI生成了完整的交付成果，其质量也往往很差，达不到专业标准。
4. 不一致性：当使用AI生成工具时，AI完成的交付成果在不同文件之间时，常表现出不一致性。
如下表2所示，是各类问题在交付成果中，出现的比例。

不过，在一小部分项目中，AI的交付成果可以媲美甚至超越人类的成果。
这类项目，主要集中在创意领域，特别是音频、图像相关的任务，此外还包括写作和数据检索/网络爬虫。
此前，「AGI定义」一文中，曾指出了AI在世界知识、记忆力、视听能力等能力上有所缺陷。
AI智能体所表现出的许多失败，恰恰都源于这些能力的不足。

比如，由于AI无法核验并修正自身工作中的错误，尤其是，在建筑、游戏开发和网页开发这类需要复杂交互和视听效果验证的项目中。

与之相对，AI模型的成功案例大多也集中在，当前其技能发展更为成熟的领域。
比如，Claude 4.5 Sonnet在简单web视觉化任务中，做的要比人类交付成果更好。

再比如，AI还可以利用图像生成工具，解决了RLI中的部分营销项目。

RLI最新研究，告诉所有人一个事实：AI离取代人类复杂劳动，还差得很远。
参考资料：
https://x.com/danhendrycks/status/1983564538781082084

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用