当前位置：首页 » 资讯 » 新科技 » 正文

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

IP属地中国·北京 编辑：唐云泽新智元 时间：2026-04-06 14:12:46

新智元报道
编辑：元宇
过去Agent比谁更会干活，现在可能要比谁更会变强。
AI已经学会「左脚踩右脚上天」了？
meta的一项最新研究表明：AI已经开始碰自己的「进化引擎」了。
华人学者Jenny Zhang在meta实习期间，联合meta AI、UBC、纽约大学等机构研究者，提出了一种新的智能体框架：HyperAgents（DGM-H）。
https://arxiv.org/abs/2603.19461
这项工作的重点，不是再造一个更能干活的Agent。
它瞄准的是更高一层的问题：
如果AI已经能够修改自己的任务解法，那它能不能连「自己以后该怎么修改自己」这件事，也一并改掉？
论文给出的答案是：可以。
而且，这不再是概念推演，而是已经在实验中跑通的系统能力。
HyperAgents做的关键一步，是把「执行任务的 agent」和「负责改进 agent 的 meta agent」合并进同一个可编辑程序里，作者将之称为hyperagent。
DGM依赖任务与自修改能力的对齐，而DGM-H不再需要这种对齐
在新框架下，系统不只会修改任务求解逻辑，还开始修改未来生成改进方案的机制本身。
论文把这种能力称为metacognitive self-modification，也就是：元认知自我修改。
过去行业竞争的是：谁的Agent更会干活。
而HyperAgents 指向的下一阶段则可能是：谁的Agent更会变强，而且会越来越会变强。
以往的「自我进化」
其实还只是半手工
这篇论文，指出了上一代自我进化路线的天花板。
去年的Darwin Gödel Machine（DGM），已经很惊艳。
它能在coding任务中不断自改代码、自我验证、把成功版本存进archive，再从这些「垫脚石」里继续往前长。
论文披露，DGM在SWE-bench上能从20.0%拉到50.0%，在Polyglot上从14.2%拉到30.7%。
但问题在于，DGM之所以能在coding里成立，是因为「评估」和「自我修改」本身也都是coding任务。
写代码更强了，反过来就更会改自己的代码。任务能力和自我改进能力，在这个场景里是对齐的。
然而一旦离开coding，这个对齐关系就断了。
比如评审论文、设计机器人奖励函数、给IMO级数学解答打分，这些任务做得更好，不等于你就更会修改自己的元机制。
HyperAgents论文最核心的一招，就是直接把这个假设砍掉：
既然任务能力和自我改进能力未必天然对齐，那就不要再把meta层写死。
这说明过去很多「自我进化」系统，本质上还是在人为设定的轨道里进化。
HyperAgents真正改变的，是改变机制本身。
HyperAgents新在哪里？
表面上看，HyperAgents只是多了一个meta agent。
但真正值得注意的是，它把task agent和meta agent合成了同一个可编辑程序。
以前的DGM里，系统有一个手工设计的instruction-generation机制，负责根据过往表现决定下一步怎么改。
这一步不能被改，所以它反而成了整个系统的瓶颈。
HyperAgents的做法是把这部分也纳入可修改范围。
换句话说，AI不只是改自己的答案、自己的工具、自己的流程，它开始改「自己怎么提出修改建议」。
DGM里上层机制基本固定，DGM-H里meta层本身也进入可演化空间，也就是说，它是一个会经营自己进化过程的系统。
所以，HyperAgents做的不是「再加一个Agent」，而是取消了「上层永远不变」这个默认前提。
自我改进开始跨域迁移
在coding任务中，HyperAgents在Polyglot 上的提升，与原始DGM处在同一量级：50-task训练子集从0.140提升到0.340，完整benchmark从0.084提升到0.267。
换句话说，它并不是只靠牺牲泛化来换局部成绩。
更关键的是，它不只在coding任务成立，还能在paper review、robotics reward design等非coding任务上继续自我改进。
在paper review上，初始agent在测试集得分为0.0，DGM-H提升到0.710；在robotics reward design上，则从0.060提升到0.372。
更关键的是，这些提升不仅出现在训练任务里，也转移到了held-out test tasks。
与此同时，对照组也很说明问题：去掉self-improve，效果明显变弱；去掉open

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

下一个十年，决定你贫富的，不再是努力，而是它

8GB显卡能再战十年！NVIDIA神经纹理压缩技术让显存需求爆降85%：从6.5GB降至970MB画质不变

上海万卡GPU集群支撑AI大模型发展

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

Agent接管EDA工作流，不只写脚本！浙大打通真实芯片设计闭环

苹果App Store今年Q1应用提交同比激增84%，分析称受氛围编程推动

全站最新

下一个十年，决定你贫富的，不再是努力，而是它

8GB显卡能再战十年！NVIDIA神经纹理压缩技术让显存需求爆降85%：从6.5GB降至970MB画质不变

上海万卡GPU集群支撑AI大模型发展

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

热门推荐

小米物流大件「当日达」上线50城

下一个十年，决定你贫富的，不再是努力，而是它

8GB显卡能再战十年！NVIDIA神经纹理压缩技术让显存需求爆降85%：从6.5GB降至970MB画质不变

上海万卡GPU集群支撑AI大模型发展

AI学会左脚踩右脚自进化？Meta华人新研究改写Agent法则

Agent接管EDA工作流，不只写脚本！浙大打通真实芯片设计闭环

苹果App Store今年Q1应用提交同比激增84%，分析称受氛围编程推动

贝努小行星样本最深入分析：水曾沿受限通道流动

AI创业，已经没有“出海”这个词了丨量子位沙龙

警惕！“NoVoice”恶意软件入侵谷歌商店：超50款应用被感染

具身Scaling Law押对了！独角兽新品1小时学会新任务，成功率99%

小米汽车：新一代SU7车外摄像头搭载ALD镀膜，能较好抑制白天逆光或夜间后车远光

人类重返月球！NASA阿耳忒弥斯2号宇航员抵达月球空间

OpenAI又曝出内讧了！IPO前夜高层大换血

小米物流大件“当日达”服务上线 50 城