![]()
这项由俄罗斯人工智能研究院(AIRI)和俄罗斯储蓄银行的联合研究团队共同完成的研究,于2025年11月发表在计算机科学期刊上,论文编号为arXiv:2511.17592v1。研究团队由AIRI的瓦伦丁·赫鲁尔科夫领导,包括来自两家机构的八位研究人员,有兴趣了解技术细节的读者可以通过该编号查找完整论文。
想象一下,如果大自然的进化过程能够指导计算机程序的编写,会发生什么神奇的事情呢?这正是这项研究要探索的核心问题。过去,程序员编写代码就像手工艺人一样,需要凭借经验和技巧一行一行地敲出程序。而现在,研究团队创造了一个名为GigaEvo的神奇工具,它能让大语言模型像生物进化一样,通过不断的"变异"和"优选"来自动生成越来越优秀的代码。
这个想法的灵感来源于今年年初发布的AlphaEvolve系统。AlphaEvolve展示了惊人的能力,它能够解决一些连专业数学家都头疼的几何难题,比如在三角形中放置11个点使得任意三点构成的最小三角形面积最大化这样的极端优化问题。但是,AlphaEvolve的论文只描述了基本思路,就像只给出了菜谱的大致步骤而没有详细的烹饪指南。这让其他研究人员很难复现这些令人惊叹的结果,更难以在此基础上进行改进和创新。
正是在这样的背景下,AIRI研究院的团队决定开发GigaEvo框架。他们的目标不仅仅是复现AlphaEvolve的成果,更重要的是要创建一个完整的、开源的系统,让全世界的研究人员都能够使用和改进这种革命性的编程方法。研究团队采用了完全不同的技术路径,从零开始构建了整个系统架构,这就像用不同的建筑材料和施工方法重新建造一座同样壮观的大厦。
GigaEvo的核心理念就像一个智能的代码育种场。在这个虚拟的"实验室"中,程序代码就像生物体一样具有"基因"——也就是代码的不同部分和结构。系统首先创建一群初始的代码"个体",然后让它们在特定的任务环境中"生存竞争"。表现优秀的代码会被选中作为"父母",通过大语言模型的智能"交配"过程产生新的"后代"代码。这些新代码继承了父母代码的优秀特性,同时还可能出现有益的"变异",从而变得更加强大。
这个过程最神奇的地方在于,它不是盲目的随机变化,而是由大语言模型提供智能指导。就好比在传统的生物进化中,突变是完全随机的,但在GigaEvo中,大语言模型就像一位经验丰富的遗传学家,能够基于对代码结构和功能的深度理解,有针对性地提出改进建议。这种智能指导大大提高了进化的效率,让系统能够更快地找到优秀的解决方案。
**一、GigaEvo系统的四大核心组件**
要理解GigaEvo是如何工作的,我们可以把它比作一个高度自动化的科研实验室。这个实验室有四个核心部门,每个部门都有自己的专门职责,但又紧密协作形成一个完整的研究体系。
第一个部门是Redis数据库,它就像实验室的档案馆。在这里,每一个代码程序都被当作一个独立的"实验样本"来管理。每个样本都有自己独特的身份证号(UUID),记录着它的完整"生平履历":从诞生那一刻的源代码,到经历的各种测试结果,再到它的家族谱系——也就是它是由哪些"父母"代码进化而来的,以及它又产生了哪些"子女"代码。这个档案系统最巧妙的地方是采用了"乐观并发控制"技术,就像图书馆的借阅系统一样,允许多个研究人员同时查阅和使用这些代码样本,而不会产生冲突。
第二个部门是DAG执行引擎,这可以理解为实验室的自动化测试流水线。DAG是"有向无环图"的简称,听起来很复杂,但其实概念很简单,就像工厂的装配线一样。代码程序在这条流水线上依次经过不同的处理站点:首先是基础验证站,检查代码语法是否正确;然后是功能测试站,运行代码看看是否能正常工作;接着是性能评估站,测量代码的运行效率;最后是复杂度分析站,评估代码的复杂程度。这个流水线最聪明的地方是能够并行处理,就像现代汽车工厂一样,多条装配线同时运行,大大提高了处理效率。
第三个部门是进化引擎,这是整个系统的"大脑"。它采用了一种叫做MAP-Elites的算法,这个算法的工作原理就像一个多维的精英选拔系统。传统的进化算法只关注单一指标,比如只看代码的运行速度,但MAP-Elites更加智能,它同时考虑多个维度。比如,它会建立一个二维的"表现地图",一个维度是代码的功能准确性,另一个维度是代码的执行效率。在这个地图的每个格子里,系统都会保留该区域内表现最好的代码。这样就确保了进化出的代码群体不仅整体优秀,而且各有特色,避免了所有代码都朝着同一个方向发展而失去多样性。
第四个部门是变异操作器,它扮演着"智能育种师"的角色。在传统的遗传算法中,变异通常是随机的,就像掷骰子一样碰运气。但GigaEvo的变异操作器要聪明得多,它基于LangGraph技术构建,能够进行深度的"思考"和"规划"。当它要对一个代码进行变异时,首先会仔细分析这个代码的当前表现和历史演化轨迹,理解它的优点和不足。然后,它会查看这个代码的"家族史",了解它的祖先代码是如何一步步进化到现在的状态的。基于这些深度分析,变异操作器会构建详细的改进提示,指导大语言模型生成新的代码版本。
这四个部门通过Redis数据库实现无缝协作,就像一个企业的不同部门通过统一的信息系统进行协调一样。这种模块化的设计使得系统既强大又灵活,研究人员可以根据需要调整任何一个部门的工作方式,而不会影响其他部门的正常运行。
**二、智能代码进化的深度机制**
GigaEvo系统最令人着迷的地方在于它如何实现真正"智能"的代码进化。这个过程远比简单的随机变异要复杂和精妙得多,它融合了多种先进的人工智能技术,创造出了一种前所未有的代码自动优化方法。
整个智能进化过程的核心是两套相辅相成的分析系统:个体洞察分析和双向家族谱系追踪。个体洞察分析就像为每个代码配备了一位专业的"健康顾问"。当一个代码程序完成测试后,系统会启动InsightsStage(洞察分析阶段),这个阶段会调用大语言模型对代码进行全面的"体检"。分析师会仔细查看代码的结构、运行结果、错误信息等各种"生命体征",然后生成结构化的分析报告。这些报告会按照不同类别进行分类,比如算法层面的问题、代码结构的缺陷、或者性能方面的瓶颈。每个发现都会被标记为有害、有益或中性,并评估其严重程度。
举个具体例子,在处理几何优化问题时,洞察分析可能会产生这样的报告:"算法层面[有害](高严重性):缺少点间距离约束检查。建议实现最小间隔阈值以防止退化三角形的产生。"这种详细的分析为后续的代码改进提供了精确的指导方向。
双向家族谱系追踪则更像是一个代码的"族谱学家"。这个系统不仅会追踪每个代码是如何从其"父母"进化而来的,还会分析它的"子女后代"是如何在它的基础上进一步改进的。这种双向分析提供了极其丰富的进化历史信息。系统包含多个协调工作的分析阶段:LineageStage负责分析每一次父代到子代的转换过程;AncestorProgramIds和DescendantProgramIds阶段则智能选择哪些祖先和后代值得重点分析;LineagesFromAncestors和LineagesToDescendants阶段分别收集来自祖先的改进经验和传给后代的成功策略。
这种家族谱系分析能够发现一些非常有价值的进化模式。比如,系统可能会发现:"家族传承(模仿):准确性提升0.19分,通过澄清输出格式→增强一致性改善了模型理解能力。"这种发现不仅告诉系统什么样的改进是有效的,还揭示了改进的具体机制和原理。
当需要进行代码变异时,MutationContextStage(变异上下文构建阶段)会将所有这些分析结果整合成一个综合的"改进建议书"。这份建议书包含了目标代码的完整历史、性能分析、祖先的成功经验、后代的改进方向等全方位信息。基于这份详尽的背景资料,大语言模型就能够进行非常有针对性的代码改进,而不是盲目地随机修改。
在实际的变异过程中,系统还采用了多种巧妙的技术策略。研究团队发现,虽然AlphaEvolve强调生成代码差异文件,但许多开源大语言模型在生成语法正确的差异文件方面表现不佳。因此,GigaEvo支持两种变异模式:差异模式和重写模式。重写模式会生成完整的新程序,但会通过精心设计的提示词指导模型将修改局限在特定的代码区域,从而在保证语法正确性的同时实现精确的改进。
系统还支持多模型路由技术,这就像为不同的任务配备专门的专家一样。比如,几何优化问题可能更适合使用在数学推理方面表现出色的模型,而代码重构任务则可能更适合在编程方面专长的模型。这种异构模型组合大大提高了系统在不同类型任务上的表现。
**三、挑战极限的数学难题验证**
为了验证GigaEvo系统的真实能力,研究团队选择了几个被公认为极其困难的数学优化问题进行测试。这些问题的特点是既有深厚的数学理论背景,又具有极高的计算复杂性,即使是专业的数学家和计算机科学家也很难找到最优解。通过在这些"地狱级"难题上的表现,可以真正检验GigaEvo是否具备了接近甚至超越人类专家的问题求解能力。
第一个挑战是著名的海尔布伦三角形问题,这是一个看似简单但实际上极其复杂的几何优化难题。问题的表述很容易理解:在一个单位面积的等边三角形内放置11个不同的点,使得这11个点中任意三个点构成的三角形面积的最小值尽可能大。听起来不难,但实际上这个问题的优化空间是22维的(11个点,每个点2个坐标),而且目标函数极其复杂非凸,任何微小的坐标变化都可能导致某些三角形变得近似共线,从而使得最小面积急剧下降。
这个问题的挑战性在于它需要同时满足多个相互冲突的约束条件:所有点必须在三角形内部或边界上,任意两点不能重合,任意三点不能共线,而且要在这些约束下最大化最小三角形面积。传统的优化算法在面对如此高维的约束优化问题时往往无能为力,因为它们很容易陷入局部最优解,而全局最优解可能需要非常巧妙的点的空间分布策略。
GigaEvo在这个问题上展现了令人惊叹的能力。系统最终找到的解决方案达到了0.0364的最小三角形面积,这与AlphaEvolve报告的0.0365极其接近,仅在第四位小数上略有差异。更重要的是,通过与AlphaEvolve论文中的图形对比,研究团队发现两个系统发现的点配置在视觉上几乎完全相同,这强烈表明它们都找到了真正的最优解或者非常接近最优的解。
第二个测试问题是单位正方形中的圆形打包优化,这个问题要求在单位正方形内放置若干个不相交的圆,使得所有圆的半径之和最大。与固定半径的圆形打包不同,这个变半径版本允许优化器自由调整每个圆的大小,这创造了更大的优化空间,但也带来了更高的复杂性。系统需要同时优化圆心位置和半径大小,在保证不重叠和不超出边界的约束下,寻找最佳的异构圆形配置。
这个问题特别适合进化算法,因为它允许通过渐进式改进来探索不同的打包策略:在空旷区域放置大圆来最大化半径贡献,同时在间隙中填充小圆来提高空间利用效率。GigaEvo在n=26圆的测试中取得了2.63598的半径总和,略微超过了AlphaEvolve报告的2.635。在n=32圆的测试中,系统达到了2.939的成绩,明显优于此前的最佳记录2.937。
第三个终极挑战是高维空间中的接触数问题,这是一个具有数百年历史的经典数学难题。问题要求确定在n维空间中,最多能有多少个单位球同时与一个中心单位球相切而彼此不重叠。这个问题看似抽象,但在编码理论、球面几何和晶体学等领域有重要应用。
GigaEvo采用整数格点构造方法来解决这个问题,需要找到满足特定几何约束的整数向量集合。所有向量必须位于相同的球面上,并且任意两个向量之间的距离必须满足分离约束。系统必须发现构造性的代数方法,比如利用格的对称性、轨道分解或代数数域构造,而不能依赖计算上不可行的组合枚举。
在12维空间的测试中,GigaEvo成功达到了已知的下界840,但没能超越这个记录。研究团队认为这个构造可能已经广为人知并出现在训练语料中,因此大语言模型能够重新发现它,但要找到全新的更优构造仍然需要真正的数学创新。
除了这些纯数学问题,研究团队还测试了GigaEvo在算法设计任务上的能力。在一维在线装箱问题中,物品按顺序到达,必须立即且不可撤销地分配给固定容量的箱子,目标是最小化使用的箱子总数。GigaEvo不仅复现了FunSearch在均匀分布上的最佳结果,还在威布尔分布上创造了新的记录,将多余箱子使用率从0.68%降低到0.55%。
**四、实际应用的突破性展示**
为了验证GigaEvo在真实世界问题中的适用性,研究团队将系统应用到了一个具有重要实际意义的自然语言处理任务:Reddit社区规则违规检测。这个应用场景的选择非常巧妙,因为它不仅测试了系统在非数学优化领域的能力,还展示了GigaEvo如何能够进化出复杂的多步骤推理策略。
这个任务来源于Kaggle平台上的Jigsaw敏捷社区规则分类竞赛,具体挑战是开发一个能够判断Reddit评论是否违反特定社区规则的智能系统。给定一条评论和一条规则,系统需要输出违规概率。数据集包含2048个训练样本和大约20倍的测试样本,每个样本包含评论正文、规则文本、所属subreddit标识符,以及少样本示例(两个正面违规例子和两个负面非违规例子)。评估指标是按规则的ROC曲线下面积,在所有测试规则上平均。特别有挑战性的是,测试集包含4个训练期间未见过的隐藏规则,这要求解决方案能够泛化到全新的社区规范。
GigaEvo在这个任务上展现了两种不同的解决方案架构:提示词进化和智能体进化。提示词进化专注于优化单次大语言模型调用的指令,而智能体进化则开发多步推理策略,将多个大语言模型调用组合成复杂的解决方案。
在初始实验中,研究团队发现进化出的提示词和智能体都一致地尝试构建评论与提供的元数据之间的定制相似性度量。为了辅助进化过程,团队使用Qwen3-Embedding-0.6B计算了三种余弦相似性特征:规则与评论之间的相似性、评论与正面示例的平均相似性、以及评论与负面示例的平均相似性。这些相似性分数作为额外的输入特征提供给所有候选解决方案。
经过60代进化,GigaEvo成功地将基线提示词从0.673的训练AUC和0.670的测试AUC提升到0.794的训练AUC和0.783的测试AUC,在测试集上实现了11.3个百分点的显著改进。进化出的最终提示词采用了内容逐步推理策略,分析不同元数据之间的多重关系,整合相似性信息进行决策,并进行最终分数计算。
更令人印象深刻的是智能体方法的表现。最终进化出的智能体在训练数据上达到了0.811 AUC,在测试数据上达到了0.803 AUC。关键是,这个智能体在保持计算效率的同时实现了性能提升,只需要进行单次大语言模型调用,与进化的提示词配置相似。性能改进是通过将大语言模型的预测概率与预计算的Qwen嵌入相似性通过校准sigmoid函数进行集成来实现的。
这个智能体的工作机制非常精巧:首先使用启发式方法基于嵌入相似性计算先验概率,然后通过主要的大语言模型调用进行细致的推理分析,最后通过加权聚合和归一化将两种方法的预测结合起来。在主要预测失败的情况下,系统会自动回退到启发式结果,确保了鲁棒性。
这些实验证明了GigaEvo能够发现有效的架构来整合神经网络预测与传统基于特征的方法。更重要的是,它展示了该框架超越几何优化的通用性,能够在需要复杂推理和特征整合的自然语言处理任务中发现创新解决方案。
**五、技术创新的深层洞察**
通过大量的实验和实际应用,研究团队发现了几个对于LLM驱动的进化计算至关重要的技术洞察。这些发现不仅解释了为什么GigaEvo能够如此有效,也为未来的相关研究提供了宝贵的指导原则。
第一个重要发现是关于代码生成策略的选择。虽然AlphaEvolve强调生成代码差异(diff),但GigaEvo团队发现,许多开源大语言模型在可靠生成语法正确的差异文件方面存在困难。这个发现促使他们开发了基于重写的变异模式,该模式生成完整的程序,同时通过精心设计的提示词指导模型将修改局限在特定区域。这种方法产生了更加鲁棒、语法有效的程序,失败率显著降低。实践证明,对于开源模型来说,重写策略比差异策略更加可靠和有效。
第二个关键洞察涉及双向家族谱系追踪的价值。传统的进化算法通常只考虑从父代到子代的信息传递,但GigaEvo的双向分析系统同时分析祖先的创新历程和后代的改进方向。这种双向视角极大地丰富了变异上下文,为大语言模型提供了更全面的改进指导。通过了解某个代码的"家族史"和"未来发展潜力",系统能够做出更加明智的进化决策。
第三个重要发现是异构大语言模型路由的效果。不同的大语言模型在不同类型的任务上表现各异,GigaEvo允许为不同的处理阶段使用不同的模型,例如让在几何推理方面表现出色的模型处理几何问题,让在代码生成方面专长的模型进行程序变异。这种专业化分工大大提高了系统的整体性能。
第四个洞察涉及配置管理的重要性。研究团队采用了Hydra分层配置管理系统,将配置空间分解为正交的组件:问题规范、进化算法、大语言模型配置、DAG流水线拓扑和执行参数。这种模块化设计使得研究人员可以通过命令行覆盖快速组合实验,而无需编辑代码。这种灵活性对于快速原型开发和实验迭代至关重要。
研究团队还发现了一些令人意外的结果。例如,他们的单岛实验没有显示出多岛MAP-Elites相比于单岛版本的明显优势,这与预期相反。这个发现提示可能需要进一步研究行为空间设计的优化方法。
另一个有趣的发现是关于问题特定知识的影响。在高维接触数问题中,当使用Google Gemini模型时,系统能够轻松达到已知下界,但使用其他模型时表现较差。这表明某些构造方法可能已经存在于特定模型的预训练语料库中,这提醒研究人员需要仔细考虑模型选择对结果的影响。
在温度参数调优方面,团队发现了一个有趣的权衡:较低的温度(如0.2)提高了语法有效性到50%以上,但减少了解决方案多样性,阻碍了进化进展。最终确定0.6的温度能够在语法正确性和创新性之间实现最佳平衡。
**六、开源框架的深远意义**
GigaEvo作为一个完全开源的框架,其意义远远超越了单纯的技术实现。它代表了科学研究中一种新的协作模式和知识传播方式,为整个人工智能社区的发展提供了宝贵的公共资源。
首先,GigaEvo的开源特性极大地降低了LLM驱动进化方法的研究门槛。在GigaEvo之前,想要研究这类混合方法的研究人员面临着巨大的技术壁垒:需要从零开始实现复杂的分布式系统、设计高效的并发执行引擎、开发智能的家族谱系追踪系统等等。这些基础设施的开发往往需要花费数月甚至数年的时间,大大阻碍了相关研究的进展。现在,研究人员可以直接使用GigaEvo提供的完整框架,将精力集中在算法改进和应用创新上,而不是重复造轮子。
其次,模块化设计哲学使得框架具有极高的可扩展性和适应性。研究人员可以很容易地替换或改进系统的任何组件,而不会影响其他部分的正常工作。比如,如果有人开发了新的进化算法,可以直接替换进化引擎模块;如果有人想要尝试不同的大语言模型,可以简单地修改变异操作器的配置。这种灵活性促进了创新和实验,让不同背景的研究人员都能在自己擅长的领域做出贡献。
标准化的问题接口设计也具有重要意义。通过定义统一的问题规范格式(任务描述、度量标准、验证函数、初始程序),GigaEvo建立了一个通用的评测平台。这意味着不同研究团队开发的算法改进可以在相同的问题集上进行公平比较,促进了研究结果的可重现性和可比较性。
从更广的视角来看,GigaEvo的成功复现了AlphaEvolve的核心结果,这验证了基本技术路径的可行性和鲁棒性。这种独立验证对于科学研究至关重要,它证明了相关发现不是偶然现象或特定实现的副产品,而是具有普遍适用性的科学原理。
框架的详细文档和实验代码也为教育和培训提供了宝贵资源。学生和初学者可以通过研究GigaEvo的实现来深入理解LLM驱动进化计算的工作原理,这比阅读抽象的理论论文要直观和有效得多。同时,丰富的配置选项和实验案例为教学提供了excellent的实践材料。
更重要的是,GigaEvo的开源释放也促进了产业界与学术界的合作。企业研发团队可以基于这个框架快速开发面向特定应用的解决方案,而不需要投入大量资源进行基础研究。这种协同效应有助于加速技术从实验室走向实际应用。
最后,开源社区的协作模式还能够带来意想不到的创新。当来自不同领域、不同文化背景的研究人员共同改进一个系统时,往往会产生单个团队难以想象的创新思路。GigaEvo为这种集体智慧的涌现提供了理想的平台。
说到底,GigaEvo不仅仅是一个技术工具,更是一个科学研究的新范式。它展示了如何通过开放、协作、模块化的方式来推进前沿技术的发展。这种模式的成功可能会影响到人工智能领域乃至整个科学研究的未来发展方向。
归根结底,这项研究为我们展示了一个激动人心的未来图景:计算机程序不再是程序员手工编写的静态产品,而是可以像生物一样不断进化、自我优化的智能实体。通过结合大语言模型的智慧和进化算法的探索能力,我们正在见证一种全新的自动化编程范式的诞生。虽然目前这种技术还主要应用于特定的优化问题,但随着系统的不断改进和应用领域的扩展,它很可能会对整个软件开发行业产生深远的影响。对于普通人来说,这意味着未来的软件可能会更加智能、更加个性化,能够根据用户的具体需求自动调整和优化自己的行为。
Q&A
Q1:GigaEvo框架是什么?
A:GigaEvo是由俄罗斯人工智能研究院开发的开源系统,它能让大语言模型像生物进化一样,通过不断的"变异"和"优选"来自动生成越来越优秀的代码,解决复杂的数学和编程问题。
Q2:GigaEvo和AlphaEvolve有什么区别?
A:AlphaEvolve只公布了基本思路而没有详细实现方案,GigaEvo则是一个完整的开源框架,采用了完全不同的技术路径,提供了模块化的系统架构,让研究人员可以复现和改进这种智能编程方法。
Q3:普通程序员能使用GigaEvo吗?
A:目前GigaEvo主要面向研究人员,需要一定的技术背景才能使用。但作为开源框架,它为整个人工智能社区提供了宝贵资源,未来可能会发展出更易用的版本供普通开发者使用。





京公网安备 11011402013531号