当前位置：首页 » 资讯 » 新科技 » 正文

刷新世界纪录！神秘学生击败谷歌AlphaEvolve难题最优解，优势仅0.00006442

IP属地中国·北京 编辑：沈瑾瑜新智元 时间：2025-07-21 18:25:27

新智元报道
编辑：定慧
一名在校生借助AI，在经典的「Circle Packing」数学难题上击败了谷歌顶尖的AlphaEvolve算法，创造了新的世界纪录。
一个还在上学的少年在AI的帮助下，击败了谷歌最先进的技术，创造了新的世界纪录！
当IMO闹剧还在争论，这个少年靠着AI已经在数学问题上逆袭了谷歌最先进的、用于设计高级算法的AlphaEvolve。
在「Circle Packing」问题上，这个少年的算法以「0.00006442」的优势超过了谷歌AlphaEvolve，也超过了此前的FICO Xpress创造的纪录。
有必要先介绍下Circle Packing问题是什么，以及谷歌AlphaEvolve到底有多厉害。
Packing Problems，也就是填充问题，可以简单理解为「将多种多边形以最高效率填充到另一个多边形中」。
Circle Packing问题则是一种特定情况，在一个给定区域（比如正方形）尽可能紧密地放置若干个互不重叠的圆，使得这些圆的半径和最大，或填充的空间最大。
谷歌的AlphaEvolve发布时曾给出这个问题的最优解。
首先这个问题可以分为两类：
在单位正方形内填充
在总和为4的矩形内填充
第一个问题，给定一个正整数，该问题是在单位正方形内打包个不相交的圆，使它们的半径总和最大。
AlphaEvolve找到了两个「新的构造」，给出了当时的最优解。
当=26时，原来的最优解是2.634，AlphaEvolve将其提升到了2.635；见下图（左）。
当=32时，原来的最优解是2.936，AlphaEvolve将其提升到了2.937；见下图（中）。
第二个问题，给定一个正整数，该问题是在周长为4的矩形内打包个不相交的圆，使它们的半径总和最大。
AlphaEvolve为=21找到了一种「新的构造」，将原来的最优解从2.364提高到了2.3658；见上图（右）。
AlphaEvolve改进了在不同约束下Circle Packing的已知最优解，创造了当时的世界纪录。
但这个纪录很快就被破了！
一家做信用卡评分的企业
声称超越了AlphaEvolve
在介绍新的纪录前，我们还是要简单回顾下谷歌的AlphaEvolve。
5月14日，谷歌发布了一款由Gemini驱动的编码智能体，看名字就知道，这个新工具可以自行设计算法来求解问题。
就像当年AlphaGo之后的AlphaZero，通过「自我博弈」来提升下棋能力，顺便说一句DeepMind对于Alpha和强化学习的执念一直都在。
这种基于LLM，由Gemini驱动的的新工具，能够自行编写算法以解决那些「臭名昭著」的数学难题。
AlphaEvolve编写的Python代码能够为数学问题找到有效的解决方案，并且在某些情况下，这些解决方案优于此前已知的最佳方案。
换句话说，AlphaEvolve在某些长期存在的数学问题上创造了新的纪录。
AlphaEvolve发现过程的扩展视图
AlphaEvolve采用了一种进化方法来发现新算法。
白皮书报告中提到的示例包括改进的矩阵乘法方法以及圆填充问题的新解法。
随后，一家名为FICO的公司试图挑战这个纪录。
FICO（Fair Isaac Corporation）是一个专注于数据分析和决策管理的美国公司，最著名的产品是FICO信用评分，广泛用于信贷行业评估个人的信用风险。
他们想如果把同样的问题交给 FICO Xpress Solver（FICO Xpress优化套件的一部分）会有什么结果。
他们与位于柏林祖斯研究所（ZIB）的MODAL研究园区合作测试了新方法。
结果发现，他们的算法更出色！
在AlphaEvolve报告中的多个基准问题上，FICO Xpress Solver产生了新的最优解，超越了DeepMind此前创下的纪录。
FICO研究了Circle Packing问题的一个版本：
任务是将任意大小的圆放入单位正方形中，以最大化它们半径的总和。
我们现在知道，AlphaEvolve找到了半径总和为2.63586275的解决方案，优于此前最优的2.634。
而FICO Xpress Solver则找到了更优的解，半径总和达到2.63591551。
左边是谷歌的构造，右边是FIC的构造，看起来圆形的排布几乎一样，只有半径的细微差别，肉眼很难发现，更别说用人力来穷举了。
对于非单位正方形，FICO声称只需从上个问题的模型中修改五行代码，便能够攻克下一个挑战。
使用FICO Xpress得到的解2.36583237略微改进了AlphaEvolve得到的解2.36583213。
这些结果都可以通过谷歌DeepMind在Google Colab笔记本的验证器进行确认，验证代码如下：
Make axes scaled equally.Draw unit square boundary.rect = patches.Rectangle((0, 0), 1, 1, linewidth=1, edgecolor='black', facecolor='none')ax.add_patch(rect)Draw the circles.for circle in circles:circ = patches.Circle((circle[0], circle[1]), circle[2], edgecolor='blue', facecolor='skyblue', alpha=0.5)ax.add_patch(circ)plt.title(f'A collection of {len(circles)} disjoint circles packed inside a unit square to maximize the sum of radii')plt.show()
谷歌还提供了画图代码，代码如下：
Make axes scaled equally. Draw the circles. for circle in circles: circ = patches.Circle((circle[0], circle[1]), circle[2], edgecolor='blue', facecolor='skyblue', alpha=0.5) ax.add_patch(circ) plt.title(f'A collection of {len(circles)} disjoint circles packed inside a unit square to maximize the sum of radii') plt.show()
以下是谷歌在n=26问题中提供的最终圆形数据，感兴趣可以试试。
以上这些问题，都可以归类为全局优化问题。
在全局优化中，目标不仅仅是找到一个解决方案，而是要证明该方案是最优解（或提供一个解与最优解之间接近程度的界限）。
谷歌在AlphaEvolve的支持下开发的算法采用了略有不同的方法：它们属于启发式算法，专注于寻找较优解，而非提供解的界限。
AlphaEvolve报告中的大多数问题要么没有约束，要么仅受到轻微约束，例如仅受到简单的变量边界限制。
这使得它们特别适合采用自动训练的启发式搜索方法，因为算法可以自由地探索解空间，而无需处理复杂的约束交互或陷入局部不可行的情况。
这些问题的真正挑战在于其高度非线性且通常非凸的目标函数，这类函数可能产生多个局部最优解。
就像谷歌AlphaEvolve的宣传图上的小圆点。
不过FICO声称他们的技术采用的是非生成式AI技术的全局优化，功能要强大得多。
不仅能够处理此类非线性问题，还能够有效应对高度约束的问题，包括具有整数性要求的问题，这类问题的可行解可能极少，并且这些解可能位于搜索空间中狭窄或不连续的区域。
「屠龙」少年
今天X平台上一位名叫Alex的学生，声称他通过一个半月的独自努力，创建的「Tactical Maniac v0.5」打败了谷歌的AlphaEvolve。
这是一个多智能体算法发现框架，从高层次看，该算法通过迭代现有方案来探索创意空间。
Alex公布了他的成果。
在n=26的情况下，他的结果为2.63592717。
并且他声称已经通过谷歌Colab笔记本中的验证器进行了验证，也画出了图形。
作为对比，我们把之前AlphaEvolve的方案和FICO的方案放在一起：
AlphaEvolve前：2.634
AlphaEvolve：2.63586275（+0.00186275）
FICO Xpress：2.63591551（+0.00005276）
Alex：2.63592717（+0.00001166，比AlphaEvolve +0.00006442）
从构造上来看，Alex的解决方案完全不同于谷歌和FICO的方案！
这是一种全新的排布方式。
他是怎么做到的？
目前Alex并没有提供类似白皮书的详细求解方法说明。
他声称由于还要求解一些其他问题，因此想保留部分信息作为专有内容。
而他的主页除了标识了自己的UIUC CS专业外，没有更多的信息。
这让他变得十分神秘。
Alex声称他的方法和AlphaEvolve最为相似。
整体而言，Alex的方法使用LLM通过变异代码来探索搜索空间。接下来会进一步微调云云。
在Reddit上已经有人开始催促少年尽快发布白皮书来进行同行评审。
所以，Alex的这个结果是否能被学术界认定，依然还是个未知数。
但他在取得成绩的第一时间，迅速在X和Reddit平台来发帖，声称自己超越了谷歌的AlphaEvolve，并在Circle Packing问题上创造了新的世界纪录。
但是同时，他又选择不第一时间公开算法原理或者白皮书。
这让人不禁联想到最近两天IMO的「闹剧」。
AI时代的「快与慢」
IMO 2025刚刚结束没有几天，关于AI能否「拿下」金牌的，或者谁是第一家拿下金牌的AI工具，已经爆发了戏剧性的冲突。
公司的总裁Greg也理解发帖来支持这个说法。
据一位IMO内部人士透露，实际上OpenAI并没有和组委会合作，拿下AI金牌不一定真实有效。
最关键的是，他们违背了IMO规定的「公布时间」规则。
为了避免AI公司们抢夺人类学生的风头，IMO评审团要求：在闭幕式结束一周后再公布结果。
然而，OpenAI却在闭幕Party还未结束前，就发布了结果。
他表示，「自己不会评论任何未预先公开测试方法的AI竞赛成绩报告。在缺乏受控测试环境的情况下，AI的数学能力难以准确评估」。
不论最终结果如何，这场闹剧已经证明AI已经深度介入人类研究。
即使是在被誉为「人类智慧最后的堡垒」数学问题上。
Alex宣称战胜谷歌，和OpenAI「抢先」宣布拿下IMO金牌，本质上都是为了抢夺当下「第一个发现者/创造者」的定位。
正如谷歌DeepMind的产品负责人Logan Kilpatrick所说：
真正的AI里程碑是当任何人、在任何地方都能取得重大突破，而不只是斯坦福的博士们。
当一个身处「意料之外」地方的学生，用AI能解决全球性问题的时候，你就知道这项技术真正起作用了。
从谷歌最顶尖的AI实验室，到实力雄厚的FICO优化求解器，再到如今横空出世的Alex，我们见证的已不仅是算法的迭代，更是科研范式的深刻变革。
AI正成为那个最强大的杠杆，它将曾经专属于顶级机构的算力和智慧，普及到每一个拥有创想的个人手中。
让「单枪匹马挑战巨头」从神话变为现实。
然而，正如IMO赛场上的争议所警示的那样，当发现的喜悦被「抢跑」的喧嚣所裹挟，我们更需一份冷静与审慎。
在这个「发现」被无限加速的时代，速度与声明，必须与严谨和验证同行。
Alex的成果是否能最终通过同行评审的严格考验，为这场传奇画上圆满的句号，我们拭目以待。
但可以肯定的是，「游戏的规则」已经被彻底改写！
参考资料：
https://x.com/alexmaxxing/status/1946996263418757567

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

OpenAI发布GPT-5.2-Codex：号称工程实战能力天花板

第42次南极考察人员登陆后有何重点工作？

国产大模型叩响资本市场大门

iPhone最高立减2000多元，数百人排队抢购榴莲！海南今起封关，网友已经在看机票了……

1秒定位船舶，语音识别率近九成！吴淞海事局自研系统将推动安全监管向智能化迈进

上海算力综合指数连续多年居全国前列，在用数据中心达136个

全站最新

OpenAI发布GPT-5.2-Codex：号称工程实战能力天花板

第42次南极考察人员登陆后有何重点工作？

国产大模型叩响资本市场大门

iPhone最高立减2000多元，数百人排队抢购榴莲！海南今起封关，网友已经在看机票了……

热门推荐

OpenAI发布GPT-5.2-Codex：号称工程实战能力天花板

充满争议仍获放行：密歇根州批准为甲骨文与OpenAI超级数据中心供电

会玩！中国科学家“撸”的这只“猫”，入选2025全球物理学年度亮点

第42次南极考察人员登陆后有何重点工作？

国产大模型叩响资本市场大门

开放第三方支付苹果在日调整规则

80后亿万富翁出任NASA局长主张与中国太空竞争

iPhone最高立减2000多元，数百人排队抢购榴莲！海南今起封关，网友已经在看机票了……

社评：中国科技进步，路透社本不必焦虑

1秒定位船舶，语音识别率近九成！吴淞海事局自研系统将推动安全监管向智能化迈进

上海算力综合指数连续多年居全国前列，在用数据中心达136个

欧盟“撤回”2035全面电动化

iPhone内存用完就坏了？苹果客服回应

盛路通信：公司研发的微波模块组件可应用于卫星通信系统

首创ACE具身研发范式大晓机器人构建具身智能开放新生态