当前位置: 首页 » 资讯 » 新科技 » 正文

AlphaEvolve再进化!DeepMind用AI「养殖」算法,碾压所有人类设计

IP属地 中国·北京 新智元 时间:2026-02-27 18:25:45


新智元报道

编辑:定慧

DeepMind最新论文:用AlphaEvolve把算法源代码当基因组,让Gemini充当遗传算子,对博弈论算法进行「自然选择」。进化出的全新算法,采用了人类研究者从未想过的反直觉机制,在几乎所有测试博弈中碾压人类花了几十年设计的最优方案。AI不再只是执行算法——它开始自己发明算法了。

谷歌DeepMind刚刚放了一个大卫星。

他们用AlphaEvolve硬生生「繁殖」出了一批全新的博弈论算法。

这些算法不仅在性能上全面碾压人类花了几十年精心设计的经典方案,更令人头皮发麻的是:

它们使用的底层机制,反直觉到没有任何一个人类研究者会想到去尝试。


论文地址:https://arxiv.org/pdf/2602.16928

代码即基因组。LLM即造物主。

这一次,AI不是在帮人类写代码——它在自己发明数学。


这不是「让ChatGPT写个算法

首先,框架设定至关重要。

你可能以为这就是对着大模型说「帮我优化一下这个函数」,然后它吐出一段差不多的代码。

不是的。


把Gemini当基因工程师使的进化式编码智能体

这是AlphaEvolve,谷歌DeepMind构建的进化式编码智能体。

它的工作方式,更接近于达尔文而不是程序员。

它把算法的源代码当作基因组(genome)。

LLM充当遗传算子(genetic operator),对代码进行变异——重写逻辑、注入新的控制流、对符号操作进行变异。

然后,它在一组博弈论基准游戏上评估每个「后代算法」的适应度——谁的可利用度(exploitability)降得最低,谁就活下来。

活下来的算法进入下一代,继续被变异、评估、筛选。

这不是提示工程。这是代码的自然选择。

目标:博弈论的两大基石算法家族

AlphaEvolve瞄准的目标,是多智能体强化学习(MARL)中两个最核心的算法家族:

反事实遗憾最小化(Counterfactual Regret Minimization, CFR)策略空间响应预言(Policy Space Response Oracles, PSRO)


如果你玩过德扑AI、或者听说过Libratus和Pluribus那些碾压人类扑克高手的AI——没错,它们的核心就是这两样东西。

它们的任务是在不完全信息博弈中找到纳什均衡——也就是让每个玩家都无法通过单方面改变策略来获得更好结果的那个「完美平衡点」。


过去几十年,研究者们一直在手动调参、凭直觉设计这些算法的变体:CFR+、DCFR、PCFR+、LCFR……每一个变体都是某个聪明绝顶的博弈论研究者灵光一闪的产物。

但AlphaEvolve说:让我来。


为什么博弈论算法的设计这么难?

要理解这篇论文的分量,先得明白一个背景:不完全信息博弈是AI领域最硬的骨头之一。

什么叫不完全信息博弈?简单说——你不知道对手手里有什么牌。

德州扑克、骗子骰、甚至国际谈判,本质上都是这类问题。在这些场景中,你看到的只是「信息集」(information set)——一组你无法区分的博弈状态。你的策略必须对同一信息集下的所有可能情况都做出合理回应。

衡量一个算法好不好,博弈论有个硬核指标叫可利用度(Exploitability)。

直觉上说,它度量的是:如果对手知道你的策略并针对性地反击,你会亏多少。可利用度为零,意味着你的策略是纳什均衡——任何对手都无法通过单方面改变策略来占你便宜,这是博弈论中的「终极境界」。

几十年来,研究者们为了让算法更快地逼近纳什均衡,一直在手动迭代设计。这个过程是这样的:

某位顶级研究者凭数学直觉观察到一种规律 → 将其形式化为一个新的折现方案/权重函数/遗憾处理规则 → 在数学上证明收敛性 → 在几个标准博弈上做实验 → 发表论文

每一步都需要人类直觉

问题是,这些算法的设计空间是组合爆炸级别的——你怎么折现历史遗憾?

正遗憾和负遗憾要不要区别对待?策略平均什么时候开始?用什么权重?这些选择的排列组合,远超任何研究者能逐一验证的范围。

论文的核心洞察在于:算法设计本质上是一个搜索问题。


人类研究者受限于数学可推导性,大多只能在「优雅但有限」的设计空间里搜索——比如线性平均、固定折现、对称处理。但如果把搜索空间扩展到任意可执行代码呢?

AlphaEvolve做的正是这件事。

它不是在调超参数,而是在进化符号代码(symbolic code)。

LLM理解代码的语义,能做出「有意义的变异」——不是随机翻转一个比特,而是「把这个线性调度改成指数调度」「给正遗憾加一个增强系数」「在前500次迭代跳过策略累积」。

这让搜索空间从人类直觉所及的几百种可能,暴涨到LLM能触及的几乎无限种合理变体。

传统方法:人类设计算法,机器执行算法。

AlphaEvolve:机器设计算法,机器执行算法,人类在旁边看着惊掉下巴。


一句话说清楚这篇论文到底干了啥

这篇论文的故事其实特别简单:

想象你是一个扑克高手教练。你手下有一套打牌的策略手册,几十年来,全靠你和其他聪明人一条条手写规则、反复试错,才慢慢改进到今天的水平。

现在,DeepMind做了一件事——他们把这本策略手册的每一页、每一条规则,都变成了一段可以被改写的代码

然后他们放出了一个AI(AlphaEvolve),让它像大自然培育物种一样,不停地改写这些规则、测试效果、淘汰差的、留下好的。

跑了无数代之后,这个AI进化出了两套全新的策略手册。

第一套叫VAD-CFR,它学会了三件人类教练从来没想过的事:局势混乱时果断忘掉旧经验,发现好招时立刻加倍下注,前500轮纯学习不做总结。听起来很奇怪对吧?但它就是比所有人类设计的方法都好用。


第二套叫SHOR-PSRO,它学会了前期大胆试探,后期精准收网——而且训练和考试用不同的策略,训练时求稳,考试时求准。


最关键的一点是:这些新规则不是AI从某本教科书里抄来的,而是它自己「进化」出来的。

人类博弈论专家看到这些规则后的第一反应是——「这也行?」

但数据不会骗人。在几乎所有测试的博弈场景中,AI进化出来的算法都打败了人类花了几十年心血设计的最好方案。

所以这篇论文真正在说的是:AI已经不只是在执行人类写的算法了,它开始自己发明算法——而且发明得比人类还好。

这意味着什么?

让我们退一步,看看这件事的全貌。

过去,博弈论算法的进步长这样:

某个顶级研究者花几个月甚至几年时间,凭直觉和数学推导,提出一个新的折现方案或权重函数 → 在几个博弈上验证 → 发论文 → 社区惊呼「天才」

现在呢?

AlphaEvolve启动 → Gemini对代码进行变异 → 自动评估适应度 → 进化选择 → 输出一个人类研究者根本不会想到的算法 → 在11个博弈中碾压所有前辈

这不只是效率的提升。

这是范式的转换。


论文的结论部分这样说:

「我们的结果表明,自动发现的算法不对称性——特别是那些管理遗憾缩放和动态混合调度的机制——能够产生对人类直觉而言难以捉摸、但在实践中极其有效的求解器。」

翻译成人话就是:AI发现了人类想不到的数学。

而且这些「想不到的数学」不是什么花哨的噱头,而是实打实地在性能上统治了整个基线方阵。

DeepMind在论文最后也给了未来方向的暗示——

他们计划将这个进化框架应用到深度强化学习智能体的完整设计中去,以及探索合作博弈中的机制发现。

想象一下:不只是博弈论算法,而是让AI进化出整个学习范式。

代码的「自然选择」,这才刚刚开始。

参考资料:

https://x.com/rryssf_/status/2027062703144284521

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新