当前位置：首页 » 资讯 » 新科技 » 正文

谷歌MIT联手：首个智能体Scaling Law出炉，盲目堆Agent性能暴跌70%

IP属地中国·北京 AI寒武纪 时间：2025-12-12 00:12:27

↑阅读之前记得关注+星标⭐️，，每天才能第一时间接收到更新
AI圈里一直流传着一句信条：“More agents is all you need”（智能体越多越好）。
大家的直觉很简单：一个诸葛亮不够，那就找三个臭皮匠来凑。甚至有人觉得，只要我把一堆AI拉进一个群里，让它们互相讨论、投票，无论什么任务都能做得更好
但现在，Google Research、DeepMind联合MIT的一项重磅研究，给这个想法泼了一盆冷水
paper：
https://arxiv.org/pdf/2512.08296

他们做了一场史上最严苛的压力测试，结果发现了一个反直觉的真相：
盲目组建AI团队，不仅不能提升能力，甚至可能把原本聪明的模型搞成“人工智障”，性能暴跌70%。
为此，研究团队总结出了一套 “智能体Scaling Law”，这是第一套能帮你算清楚“到底该单干还是群殴”的数学公式
为了搞清楚AI协作的真相，研究人员没有只测一种模型，而是把市面上最强的三大模型——OpenAI (GPT系列)、Google (Gemini系列)、Anthropic (Claude系列) 全部拉上了擂台
他们设计了180种不同的配置，不仅有单打独斗的（单智能体），还有四种不同的“组队模式”：
1.各自为战：大家各干各的，最后凑一起。
2.中心化指挥：有个“经理”负责分派任务和检查。
3.去中心化讨论：大家围成一圈开会，互相辩论。
4.混合模式：既有经理，底下人也能私聊
为了公平，不管是单人还是团队，手里能花的钱（Token预算）和能用的工具都是一样的
测试结果出来后，呈现出了极端的两极分化，就像两个平行宇宙。
宇宙一：人多力量大
在金融分析（Finance-Agent）这类任务里，多智能体简直杀疯了
因为金融任务可以拆得非常细，比如A查财报，B看K线，C做风控，最后汇总。在这种场景下，找个“经理”来指挥（中心化架构），性能直接比单干提升了80.9%
宇宙二：人多即地狱
但在“规划任务”（PlanCraft，比如在Minecraft里合成物品）里，情况完全失控
这类任务讲究逻辑的连贯性：你得先砍树，才能做木板，再做工作台。步骤环环相扣
结果研究发现，只要引入协作，所有多智能体架构全部崩盘
因为大家七嘴八舌地讨论打断了推理的连贯性，把宝贵的计算资源都浪费在了沟通上。比起单干，性能最高暴跌了70%
还有个中间派：
模拟真实职场打工（Workbench）的任务，结果显示，这就属于费力不讨好。折腾半天组建团队，最好的结果也就提升了5.7%，甚至有的架构还倒退了
为什么会出现这种差异？研究团队通过那套Scaling Law公式，像法医一样解剖了背后的原因，找到了三条铁律：
铁律1：工具越重，开会越废（工具-协作权衡）
想象一下，如果一个工匠要用16种不同的锤子和锯子干活
单干时，他拿起工具就干。但如果是个团队，每换个工具都要跟队友确认、同步信息
数据显示，任务需要的工具越多，协作带来的内耗就越严重。在这种“重工具”场景下，把资源花在沟通上简直是浪费，不如留给单人去思考
铁律2：高手不需要队友（能力饱和）
研究划定了一条残酷的“红线”：45%。
如果一个单智能体自己做这道题的准确率已经超过了45%，那么给它加队友往往是负收益
就像学霸做题，自己做能得90分。非要给他配几个60分的队友在旁边指指点点，最后成绩反而会被拉低。
铁律3：没经理的团队是灾难（错误放大）
这是最吓人的数据
如果你让一群AI各自跑结果（独立架构），却没人负责检查，错误率会被放大17.2倍！
因为一个AI犯了错，没纠正，另一个AI接着错，最后错上加错
只有引入“中心化”的经理角色，强制进行检查验证，才能把错误控制住（只放大4.4倍）
结论：算好这笔账
这项研究最大的贡献，就是告诉大家：别迷信人海战术了
Google和MIT把这些发现浓缩成了一个预测模型。现在，只要你输入三个数据：
1. 模型本身聪不聪明？
2. 任务要用多少工具？
3. 这任务能不能拆解？
这个公式就能以87%的准确率告诉你：该单干，还是该组队
简单来说，这就是一本AI算力经济学：在预算有限的情况下，把算力花在让一个大脑深思熟虑上，往往比让一群大脑开会吵架更划算——除非，你真的有一个好经理和容易拆分的任务
--end--
最后记得⭐️我，每天都在更新：欢迎点赞转发推荐评论，别忘了关注我

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用