新智元报道
编辑:艾伦
OpenAI的封闭模型在IOI 2025竞赛夺金的同时,英伟达团队交出了一份同样令人振奋的答卷——他们利用完全开源的大模型和全新的GenCluster策略,在IOI 2025竞赛中跑出了媲美金牌选手的成绩!开源模型首次达到了IOI金牌水准。这究竟是怎样实现的?
IOI(国际信息学奥林匹克)是全球中学生算法编程竞赛的最高殿堂,每年只有不到10%选手能拿到金牌。
比赛要求选手在两天内各5小时独立解决3道高难度算法题,全程断网、不能借助外部资料,每题最多允许50次提交尝试。
要拿金牌,既要有过硬的算法思维,又得策略得当、在有限提交内调优代码。
如此严苛的赛制也成为AI编程能力的试金石。
去年OpenAI曾用专门微调的o1-ioi模型搭配复杂的推理策略参赛,但只拿到213分(排名约49%,未达到铜牌线)。
而今年OpenAI改用通用大模型组合,通过海量生成+自我验证的方法一举达成533.29分,排名逼近人类前五、稳拿金牌。
这一飞跃展示了大规模测试时计算(TTC,test-time compute,指在模型训练完成之后,实际用来做推理/生成/回答时所使用的计算资源)的威力,也意味着AI已逼近顶尖人类水平。
然而,这些惊人成绩大多来自封闭模型,而且具体技巧往往秘而不宣。
相比之下,开源模型虽在Codeforces等公开榜单上进步明显,但总体上仍落后于私有模型的表现。
GenCluster的出现扭转了这一局面。
英伟达的研究者提出这一可扩展测试时计算框架,专门提升开源LLM在编程竞赛问题上的解题能力。
通过充分利用推理阶段的计算资源,GenCluster让一个开源模型(OpenAI发布的gpt-oss-120b)在IOI 2025题目上首次跑出了446.75分的金牌级别高分!
他们在最新论文中公开了这一过程的细节和代码,实现了透明、可复现的评测。
下面,我们详细看看GenCluster的核心思想和实现流程。
GenCluster技术方案
以算力换思路的「四部曲」
GenCluster的理念很直接:用算力弥补思维差距。
既然单次生成代码往往不靠谱,那就多生成、优中选优。
GenCluster对每个问题(精确到子任务级别)执行一套 「海选+筛选+比拼+提交」 的流水线流程:
生成候选解:首先,利用大模型并行生成大量不同思路的候选程序代码。
相比人类选手绞尽脑汁一次写出一个解,GenCluster直接调用LLM来个「海量脑暴」。
论文中使用的gpt-oss-120b模型会针对每个子任务产生多达数千个候选方案。
这些代码风格各异、五花八门,相当于请出一支「AI解题大军」,尝试各种可能的解法。
行为聚类:面对海量代码,下一步是筛选归类。
GenCluster并非简单按文本相似度分组,而是关注程序运行行为的相似性。
具体做法是让候选程序跑一系列测试用例(既包括公开样例,也包括模型或人工设计的小型测试),根据它们输出的结果模式将程序分成不同簇。
直观来说,同一簇内的程序「成败相同」——要么在这些测试上全对,要么犯类似错误。
这样可将数千方案归为若干行为类别,便于后续处理。
锦标赛排名:有了聚类,还需要从中找到最可能正确的方案。
GenCluster别出心裁地设计了一个「AI 锦标赛」环节:
先从每个簇挑选一个代表方案(他们发现「思路最长」(推理步骤最多)的代码往往更可靠,因此选取每簇中代码生成时思维链最长的那个作为代表);
然后让这些代表方案在更多对抗测试中互相比拼,通过胜负场次来给簇排序。
可以理解为每两个方案「踢一场比赛」,看谁通过的测试更多,胜者计分。
经过多轮两两对决,每个簇都有一个胜场数,胜场越多表示该簇方案越可能是正确解。
最终得到按「实力」高低排列的簇列表。
这种LLM自我评估+行为竞赛的排名策略,比简单按簇大小或投票率排序要精细得多,尤其适用于多数候选都不正确的困难场景。
轮转提交:最后进入提交策略阶段。
由于比赛每题仅有最多50次提交机会,如何挑选并提交方案至关重要。
GenCluster采用轮转提交(Round-Robin)的方法兼顾冒险与稳妥:它按照上一步的簇排名依次循环,从每个簇取出一个方案提交评测,然后再轮到下一簇。
如此「雨露均沾」,确保不同思路都有机会试错,不会把50次名额浪费在一条路上。
每轮提交后,如果发现某簇的方案已经成功拿满该子任务的分数(即找到正确解法),那么该簇剩余方案就不再提交,转而尝试其他簇的方案。
另外,GenCluster倾向先攻克难度最高的子任务,因为一旦拿下最难部分,简单子任务往往也迎刃而解。
这种循环轮转+及时止损的策略,大幅提高了在有限提交内获取高分的概率。
经过以上四步,GenCluster在模拟真实比赛环境下,从茫茫代码中选出了少量最优解提交,从而最大化得分。
整个流程充分利用了大模型强大的生成多样性和计算资源,以「广撒网+巧收网」的方式弥补单次推理不准确的不足,可谓「用算力换正确率」的典范。
技术优势
GenCluster比其他方法强在哪?
GenCluster的核心创新在于大规模生成+智能筛选。
类似的思路以前也有尝试,例如AlphaCode系统就曾通过生成上百万代码并聚类筛选,达到Codeforces前54%选手水平。
OpenAI在IOI 2025夺金时也用了超过1万个候选项+聚类+学习打分的套路。
但GenCluster将这一思路在开源模型上发扬光大,并引入了更精细的「行为聚类」和「锦标赛」机制来提升筛选效果。
对比其他可能的策略,GenCluster显示出明显优势:
对比随机或简单规则:论文实验让GenCluster与几种简单选择策略对比:随机挑选方案、按最长推理链挑选方案、按最大簇挑选、按多数投票输出挑选等。
结果表明,GenCluster成绩远超这些基线方法,随机选方案最终总分约300分,按最长推理链只有277分,而GenCluster高达446.75分。
显然,在IOI这样难度极高、正确解稀少的场景下,盲目选或简单统计是靠不住的,GenCluster的精细筛选策略更胜一筹。
对比其他聚类策略:如果仅按簇大小选,假设「大簇更可能有正确解」,反而效果平平(接近随机)。
这是因为错误解法可能充斥成为大簇;而真正正确的解法往往凤毛麟角,初始生成时可能只出现很小的簇。
多数投票策略(根据候选程序在测试上的输出多数情况来评价簇)在这种高难题上也不理想,当绝大多数程序输出都是错的,「多数」并不可靠。
相比之下,GenCluster的锦标赛排名能更有效地区分出潜在正确簇。
此外,GenCluster 还通过挑选簇代表的巧思(用思路最长的方案代表簇)进一步提高了判断精度:研究发现这个简单技巧比随便拿簇中一个方案当代表要好不少。
这些细节设计让 GenCluster 的选择更有「慧眼」,尽量把50次宝贵提交用在刀刃上。
扩展性与计算投入:GenCluster最大的卖点是可扩展。它的得分会随着生成候选数量K的增加而提升,并没有明显饱和。
从K=50一路增加到5000,最后提交得分从332分稳步提升到446.75分。
当然,越多候选也增加了筛选难度,但GenCluster的方法能有效在海量方案中挖掘出优解,使得投入更多算力就有更高收益。
这种正相关的扩展性非常关键:意味着只要有足够计算资源,开源模型的表现还有进一步超越当前金牌线的潜力。
GenCluster通过一系列策略巧妙地放大了开源模型的解题能力,弥补了模型本身与顶级闭源模型的差距。
正如作者所说,这为开源模型在复杂推理任务上缩小差距乃至后来居上提供了一条可行路径。
实验成果
开源模型首夺IOI金牌
英伟达团队在IOI 2025全部题目上验证了GenCluster的威力。
他们选用的gpt-oss-120b是今年OpenAI发布的开源1200亿参数大型模型,具备强链式推理能力,并经过英伟达优化可高效运行。
实验让该模型针对每个IOI子任务生成最多5000个候选方案,并用GenCluster策略从中选取提交。
结果令人瞩目:在严格遵守50次提交限制的情况下,gpt-oss-120b最终总分达到446.75分,超过当年金牌线 438.30分,相当于拿下了一枚IOI金牌!
这是历史上首次有开源权重的模型达到此成绩。
值得一提的是,这一分数虽然尚未追上OpenAI宣称的533.29分(后者借助了多个专有模型集成),但已经非常接近人类金牌选手的水平线。
在2025年的赛场上,排名第六名的人类选手得分也在533分附近,而排名28名(金牌最后一名)为438.3分。
也就是说,GenCluster相当于打败了除顶尖几位选手外的所有人类。
考虑到它使用的还是开源模型,这个结果格外鼓舞人心。
更重要的是,英伟达提供了透明的实验细节和代码,方便第三方验证和复现这套方案。
相比之下,OpenAI等公司的封闭方案由于缺乏公布细节,外界很难评估其中用到了多少计算资源、哪些特殊技巧。
GenCluster的工作为学术界和开源社区提供了一个公开的高水平基准,证明通过开源模型也能达成过去只有巨头专有模型才能实现的成绩。
创新意义
开源AI迎来新里程碑
英伟达GenCluster的成功标志着开源AI在顶级编程竞赛领域取得了里程碑式的突破。
以往,封闭大型模型在这类竞赛中一骑绝尘,让人感觉开源方案望尘莫及。
如今,GenCluster 展现出「弯道超车」的可能:只要方法得当、资源到位,开源模型也完全有实力和封闭模型一争高下。
这样的案例无疑会对AI竞赛格局和开源生态产生深远影响:
其一,打开竞赛新赛道。
今年IOI专门增设了AI线上赛道,让AI系统在与人类相同规则下参赛。
而随着像GenCluster这样的开源方案崛起,未来我们可能看到更多团队用开源模型参赛,甚至举办纯粹比拼AI的编程大赛。
在公平可复现的前提下竞技,有助于加速技术进步,也增加了比赛的看点。
其二,促进行业开放与合作。
当开源模型凭借透明方法取得佳绩,这对封闭模型路线也是一种鞭策。
OpenAI、DeepMind等或许需要更主动地披露其竞赛AI的技术细节,或干脆开放部分模型权重,来回应学术界和业界对可验证性的需求。
同时,英伟达此次扮演了「协同者」角色,一方面与OpenAI合作训练优化了gpt-oss-120b等模型,另一方面自己又利用这些开源模型推出创新方案。
可以预见,跨机构的合作和开源社区的参与将成为推动AI极限挑战的新动力。
其三,降低研究壁垒。
过去,要想在编程挑战上取得顶尖成绩,往往需要调动专有模型和海量计算,非常昂贵且不可复现。
现在有了GenCluster提供的开源范例,更多研究者可以基于公开代码和模型复现乃至改进这个方法。
这将繁荣该领域的研究,让算法竞赛逐渐成为衡量通用AI的标准基准。
当开源模型不断刷新纪录,意味着学术界不必事事仰赖商业巨头,也能推动前沿进展。
当然,我们也应看到,目前GenCluster达成金牌仍以巨大计算开销为代价,每题生成上千方案、运行上万次测试,对算力和工程有相当要求。
如何在减少计算成本的同时保持高性能,是未来努力方向之一。
此外,开源模型要彻底追上并超越最强的封闭模型,可能还需要在模型架构和训练上继续改进。
但不管怎样,英伟达GenCluster已经向世人证明:开源选手也能站上AI编程竞赛的领奖台。
这一突破无疑为开源AI正名,并将在社区引发新一轮关于「算力vs.算法」「封闭vs.开源」的思考与探索。
在一条形容AI答题的玩笑中,有人说「也许只要给足够多的猴子足够多的打字机,就能写出完美代码」。
而GenCluster则用实践告诉我们:即便不开「小黑屋」训练专用强大模型,开源AI也能靠聪明地调动「千军万码」来解决最难的题。
开源模型勇夺IOI金牌,不仅是技术上的胜利,更是理念上的一次胜出。
它象征着开放与共享的力量,正在足以比肩那些神秘莫测的「封闭巨兽」。
展望未来,随着开源生态和创新算法的双轮驱动,我们有理由期待,在更多人工智能的竞技场上,都会出现开源选手登顶的身影。
参考资料:
https://arxiv.org/abs/2510.14232v1
https://x.com/JacksonAtkinsX/status/1979563525614842156
附录:英伟达GenCluster实战prompt