当前位置: 首页 » 资讯 » 新科技 » 正文

专访OpenAI「IMO金牌」团队:3个人,2个月,让通用AI站上数学之巅

IP属地 中国·北京 编辑:苏婉清 学术头条 时间:2025-08-01 22:22:14



前几天,OpenAI 遭到了大量「口诛笔伐」,起因是一些人认为OpenAI「抢发」 今年国际数学奥林匹克竞赛(IMO)成绩,用「AI 斩获金牌」抢学生风头。

尽管如此,单从技术突破的角度来看,OpenAI 这一未公开的实验性大模型也值得期待。

据 OpenAI 介绍,他们的模型仅在 4.5 小时内便独立完成今年 IMO 的 6 道证明题,且未使用网络或计算器辅助,成绩达到了全球仅不到 9% 人类参赛者能达到的金牌标准。

更值得一提的是,OpenAI 此次成功并非依赖特定任务的狭隘方法,而是通过通用推理能力实现的。

那么,这一神秘模型是如何做到轻松超越大部分人类选手、斩获金牌的?OpenAI 在背后做了哪些努力?他们所称的“通用技术”又预示了怎样的未来?

日前,OpenAI 研究员Alex WeiSheryl Hsu Noam Brown 在做客Training Data节目时,分享了这一历史性成果背后的故事:

从长期以来对IMO 金牌的关注,到仅两个月的全力冲刺;从采用通用强化学习技术,而非形式化验证工具的独特方法,到模型展现出的惊人自我意识——在面对第六题这一难题时,能意识到并承认自己无法解决。

他们表示,这一突破不仅在于出色的数学能力,更在于其底层架构所包含的通用技术,可扩展测试时计算、处理远超竞赛数学范围的难以验证任务

他们也谈及了当前成果与真正数学研究突破之间的差距,以及未来将通用技术应用于更多领域、解决更复杂问题的愿景。


学术头条在不改变原文大意的前提下,对访谈内容做了适当的精编和删减。如下:

Sonya HuangAlex、Sheryl、Noam,非常感谢你们今天做客节目。我们请到的是 OpenAI 首次获得 IMO 金牌的团队。祝贺你们所有人,这是一项重大成就。

合:谢谢。

Sonya Huang我很想了解一下这件事的故事。IMO 金牌一直是人工智能领域所有人长期追逐但又难以企及的目标。我记得 2021 年Sam 向我们做演示时,幻灯片上就有这个目标,当时我还想:“啊,这看起来还很遥远。”我很想了解一下,就这项具体的成果而言,更直接的起源是什么。你们是什么时候开始考虑这件事的,又是怎么实现的呢?

Alex Wei我觉得这是我们长期以来一直在思考的事情。我记得在我刚加入 OpenAI 的第一周,Noam 就问我,你觉得这个模型什么时候能拿到IMO 金牌?我当时觉得,2025 年能实现的可能性不大。但就像你说的,这一直是我们心中的一个目标。但就这项具体的工作而言,我觉得,我们真正开始为今年的IMO 做最后的冲刺,大概也就几个月的时间。当然,我们一直在改进我们的强化学习算法。

Sonya Huang太不可思议了。参与的团队有多大规模呢?

Alex Wei我们显然是在 OpenAI 很多人的研究基础上进行的,没有推理部门、规模化团队的同事,还有负责预训练和强化学习训练的人员的大量帮助,这一切都不可能实现。但核心人员其实就我们三个人

Sonya Huang太不可思议了,只有你们三个人。

Noam Brown而且主要是 Alex 在做,Alex 研究这项技术已经有一段时间了,我和Sheryl 在临近IMO 的时候才开始帮忙,因为我们越来越接近让这件事成为现实。

Sonya Huang太厉害了。那这一切是怎么推进的呢?比如,是你们自己决定要争取拿下 IMO 金牌,然后朝着这个目标努力吗?你们是怎么主动提出要做这样一件事的呢?

Alex Wei是因为我们觉得或许有可能,如果我们在这几个月里再加把劲,也许就能成功。

Noam BrownOpenAI 的优点之一是,研究人员能自主开展他们认为有影响力的研究。所以 Alex 就提出,他有一项新技术,可能会很有帮助。说实话,当时有不少人持怀疑态度,当然也有人支持,但大家都觉得应该给我们探索和尝试的自由。后来,研究开始显现出一些积极的迹象,虽然还有人持怀疑态度,但越来越多的人开始对此感到兴奋,最终这件事变得越来越重要,现在大家显然都对它非常兴奋。

Sonya Huang能再具体说说那些积极的迹象吗?比如你们看到了哪些早期信号,让你们决定全力以赴?

Alex Wei我觉得是在难以验证的任务上取得的进展。以前,我们更多关注的是如果有可验证的结果,我们能做些什么。而在这些更难验证的任务上看到了更多改进,这让我们很受鼓舞。

Sonya Huang或许从这个角度来说,你们是如何验证结果的正确性的呢?我知道你们在 GitHub 上发布了证明过程,但能再说说你们是如何确定已经找到正确答案的吗?因为我了解到,模型的解题方式和人类不太一样。

Alex Wei是啊。我确实认为模型输出的风格有点糟糕。

Sonya Huang“糟糕”这个词我可不会用。应该说很有创意,像一种外星语言。

Alex Wei是啊,所以我觉得,因为我们人很少,所以我们没有太注重优化输出结果的可读性,但我们是有能力做到的,就像 ChatGPT 的输出就很容易理解,我们也能让模型做到这一点。

Sonya Huang你们觉得有必要优化输出结果的可读性吗?这很重要吗?

Noam Brown我觉得如果要展示给人类看,他们肯定更希望结果通俗易懂。我们其实讨论过,我们拿到证明后,发现其实可以让 ChatGPT 把它改得更易读一些,而且证明的正确性不会受影响,只是可读性稍微增强了一点。我们当时在想,当我们在网上发布这些内容时,是发布经过 ChatGPT 优化的更易读的版本,还是发布原始版本?最后我们决定,为了完全透明,还是发布原始版本,大家应该能看懂。

Sonya HuangOpenAI 的员工里有很多 IMO 奖牌得主和参赛者,对吧?你们会在业余时间给模型生成的答案评分吗?

Alex Wei在测试期间,我们确实看了很多样本。但为了给这些结果评分,我们专门聘请了外部的前 IMO 奖牌得主。每个证明都由三位奖牌得主评分,而且他们对每个证明的正确性都达成了一致意见。

Noam Brown我不知道 Sheryl 怎么样,反正对我来说,这些证明已经超出了我的理解能力。我虽然是数学专业出身,但从来没参加过数学竞赛,这个模型写出的东西,我已经无法评判了。

Sheryl Hsu是啊,我也是。我觉得这更能体现出这个模型有多厉害。

Sonya Huang没错。那第六题呢?为什么所有模型都没能解出今年 IMO 的第六题,你们的模型甚至都没有尝试解答,能详细解释一下这个问题的原因吗?一般来说,第六题总是IMO 中最难的。

Alex Wei是的,我通常认为是第三题或第六题。

Sonya Huang能说说是什么让这道题与众不同吗?以及你从其中学到了什么?而且我记得你在推特上说,模型知道自己解不出第六题,能再说说吗?

Alex Wei对于第六题,我觉得它真的是一个非常棘手的问题。就算给我几个月的时间去思考,甚至给我一个关于解题主要思路的提示,我也解不出来。这道题太难了,有太多种可能的思路,但找到正确的证明路径却非常狭窄。我觉得,数学本身就是很难的事之一。

Sheryl Hsu是的。我们在第六题上投入了大量的计算资源,但看到模型没有试图去编造答案,而是直接说解不出来,这其实是件好事。当然,当你觉得模型付出了这么多努力,最后却只说解不出来,确实有点令人失望,但模型能承认这一点,还是很好的。

Sonya Huang这体现了一种惊人的自我认知,知道自己的能力上限。因为我记得就在几年前,这些模型总是会努力给出答案,哪怕是编造一个,对吧?所以现在能看到模型有这样的表现,真的是一种惊人的自我认知。

Noam Brown我们发布推理模型的时候,我和一些数学家、计算机科学家交流,问他们是否觉得这些模型有价值。答案通常是肯定的,但他们抱怨的一点是,如果问模型一个它不知道答案的问题,它会输出一个听起来非常令人信服但实际上错误的答案,他们必须仔细检查才能发现问题,比如是不是模型偷偷改了一个不等式什么的。所以看到这个模型在不知道答案的时候,至少能更频繁地承认自己不知道,这很好。

Sonya Huang我想知道,在内部,你们有没有打赌,比如在预测市场上押注今年能否拿到 IMO 金牌,当时内部的氛围是怎样的?

Alex Wei我觉得我们有很大的机会,但也不是十拿九稳。有些类型的题目,模型可能比人类更吃力,但还有一些类型的题目,模型会表现得非常出色。今年的题目难度适中,像第六题,以目前最先进的模型水平来说还是难以攻克。而且我觉得,像第六题这样的组合数学难题,通常更有挑战性,这也是模型目前还在攻克的难点。

Sonya Huang组合数学和你们擅长的几何等领域相比,难在哪里呢?

Alex Wei我觉得组合数学可能更抽象,维度更高。而且很多时候,组合数学问题需要灵光一闪的洞察力,这正是模型不擅长的。我认为模型更擅长解决那些需要一系列小步骤的问题。

Sonya Huang从你们的角度来看,当时内部对拿到金牌是乐观还是不乐观呢?

Sheryl Hsu我觉得情况不是特别乐观。大家当然知道有可能实现,但我觉得就算在一两个月前,大家也觉得还需要很大的改进才能做到,不过我们确实做到了。

Noam Brown我记得大概在比赛前两个月,我和 OpenAI 的另一位研究员聊天,我们说:“好吧,如果要打赌的话,我是愿意打赌的人,我很乐意赌一把。”我当时问他:“你愿意冒多大的险?”因为我愿意打赌我们能拿到金牌。然后他说:“根本不可能。”而且,他说他很乐意以二比一的赔率赌模型赢不了,也就是说,模型赢的概率不到三分之一。但他不想和我们打赌,因为他觉得和团队打赌不吉利,所以最后他没有和我们打赌。

Sonya Huang那你有没有从他那里赢点零花钱?

Noam Brown我希望能啊,我希望能。

Sonya Huang因为我记得你们在 15 个月前,在 Amy 上的预测是 12%,对吧?所以尽管你永远不想和 OpenAI 的规模化发展打赌,但你们取得的成就还是非常惊人的。

Noam Brown我认为数学进步的速度真的非常快,Alex 也在推特上提到过这一点。要知道就在几年前,这些模型在小学数学问题上都很吃力。我记得,甚至在2024 年,GSM8K 数据集还被当作大家发布模型时的标准评估基准,之后短暂地变成了MATH,接着是AMIE,再后来是IMO。它的发展速度突破了所有这些数学基准,这真是令人震惊。

Sheryl Hsu我还记得两年前我训练的模型是基于 GSM8K 的。

Sonya Huang是啊,那些日子已经过去了,对吧?评估基准已经饱和了。接下来会是什么呢?你觉得,到明年这个时候,我们能解决千禧年大奖难题吗?

Alex Wei我觉得还很遥远。一方面,想想从 GSM8K 以来,数学领域取得的进步,就在两年前,GSM8K 还是大家努力突破的标准,这进步速度确实惊人。但另一方面,想想人类解决这些问题需要的时间,GSM8K 的题目就像是小学水平,数学好的人几秒钟就能解决。而现在,我们已经从几秒钟的解题时间,进步到了平均每道题像那些优秀学生也需要一个半小时的时间,而研究级别的数学问题可能需要 1500 个小时才能解决,这是上千倍的思考时间。千禧年大奖难题更是耗费了整个领域的人毕生的精力,而且大多数问题至今仍没有太大进展。所以,一方面,我们取得了如此大的进步,令人兴奋;另一方面,我们还有很长的路要走,从一个半小时到数万、数十万小时的人类思考时间,这也让人感到自己的渺小。

Sonya Huang完全同意。Noam,我觉得你在这方面很有前瞻性。我记得在你加入 OpenAI 之前,你就和我们聊过游戏领域的研究成果,以及如果让模型思考数小时甚至数十小时会发生什么,你真的很有远见。

Noam Brown谢谢。是啊,能看到这些成为现实,很令人兴奋。

Sonya Huang那么,当把计算时间、推理时间从 0.1 分钟级扩展到 100 分钟级时,会遇到哪些困难呢?我想从一个较高的层面来了解,因为我们的听众大多不是人工智能研究人员,那么在保证模型正常运行方面,会遇到哪些难题呢?

Noam Brown有一个很明显的挑战是,如果让模型思考 1500 小时,那么为了评估它,也需要让它思考 1500 小时,这样模型的评估就会成为阻碍进度的一大障碍。目前我们还没到那个阶段,让模型思考一个半小时不成问题,我们可以进行测试。但如果要进行一个需要模型思考一个月的测试,那就得等一个月才能出结果。如果要等这样的结果,进展的速度就会大打折扣

Sonya Huang我觉得你们都在多智能体(multi-agent)团队工作。能帮我理解一下multi-agent system在这其中扮演了什么角色吗?

Noam Brown除了让模型长时间思考,在难以验证的任务上取得较大进展,这还涉及到扩展并行计算,这其中就有multi-agent 的成分。具体的技术细节我们可能不便多说,但这确实是我们能够为 IMO 扩展测试时计算的一种方式。顺便说一下,关于multi-agent 和可扩展并行计算,我们在这方面的技术非常注重通用性。比如,我研究过扑克人工智能,Alex 和我都研究过外交人工智能,Alex 还是“西塞罗”团队的成员。那些项目我都很自豪,但我们也花了好几年才取得成果。而人工智能的发展速度如此之快,花时间开发一个只能完成单一任务的定制系统,似乎不是最佳选择。所以我们都非常注重通用技术。我们在扩展思考时间、处理难以验证的任务以及并行计算方面使用的技术,都是通用技术,我们计划或将这些技术应用到其他系统中。

Sonya Huang这就是你们没有选择用 Lean 的原因吗?我的理解是,今年 IMO 的官方人工智能赛道要求用 Lean 来解题。这就是你们不选择用 Lean 的原因吗?

Noam Brown是的。我觉得 Lean 作为一个工具当然有其价值,比如数学家们觉得它很有用。但对于我们来说,我们的重点是通用推理能力,而 Lean 有其局限性,所以我们更倾向于使用自然语言。

Sonya Huang以我这个外行人的理解,Lean 是一种形式化验证工具。那么你们的成果是不是意味着,随着规模的扩大,非形式化验证能达到甚至超越形式化验证的水平?这样理解对吗?

Sonya Huang我不这么认为,我不觉得这是正确的结论。Alex 怎么看?

Alex Wei我觉得这是两个不同的方面。我们觉得非形式化数学是一个有趣的问题,因为它体现了在扩展测试时计算、处理难以验证任务方面的核心难点,而这些难点在我们关注的众多通用任务中都存在。我觉得 Lean 的应用范围有点狭窄,因为世界上很多问题都可以通过非形式化推理来解决,而不是都能形式化。

Noam Brown我觉得专用人工智能没什么不好,在某些领域,专用人工智能显然远超通用人工智能。我觉得正确的理解是,就像人类数学家能从 Lean 中获益一样,通用人工智能也能与专注于形式化数学的专用系统相辅相成,两者结合会更好。

Sonya Huang我在推特上看到很多 OpenAI 的朋友提到,我想你们也提到过这一点。这个系统的构建方法和基础设施,与 OpenAI 最近发布的很多产品相似,比如上周我们请到了 ChatGPT Agent 团队的Isa Fulford 等人做客节目。能再说说这种相似的基础和方法是什么吗?

Sheryl Hsu从基础设施角度来说,我们都使用相同的基础设施。但这个问题的核心是,就像 Noam 说的,这里没有任何专门为IMO 定制的东西。我们希望能将Alex在非验证任务和扩展测试时计算方面的研究技术应用到其他推理领域或提升模型的整体能力上,从而构建更强大的模型,不断改进agent、改进ChatGPT 等所有产品。

Sonya Huang能说说 IMO 比赛当天的具体情况吗?那是什么样的体验?

Noam Brown:我们一直在等题目公布,因为一旦参赛者考完试后,题目就会公布。我们大概在凌晨一点左右把题目输入模型,说实话,我当时就去睡觉了,因为已经凌晨一点了,我不想熬四个半小时等着看结果,早上醒来再看就行。但我觉得他们俩应该熬夜了,看着模型并实时关注进展。

Sheryl Hsu是啊,非常有趣。

Sonya Huang有人想打电话吗,说 “醒醒,醒醒,我们成功了”?

Noam Brown有几次 Alex 实在太累了,他决定小睡一会儿,我们告诉他,“好吧,确保手机开着声音,万一我们需要叫醒你,可以打电话给你。”有一次我们确实不得不给他打电话,但我觉得他没醒。

Sonya Huang太有意思了。那一定非常激动人心,尤其是在那个时候。你们凌晨一点开始,那大概早上九点就知道结果了吧?

Sheryl Hsu哦,是四个半小时。

Sonya Huang第一部分要四个半小时。

Sheryl Hsu是啊,我也说不准。我们能看到题目出来,我主要是确保系统稳定运行,Alex 则在一旁阅读并查看模型的进展。

Sonya Huang所以你是在现场人工验证证明过程,看看是否正确吗?

Alex Wei我当然对结果非常焦虑,所以我会查看模型取得的部分进展,我们能观察到这些。而且我也会手动检查,虽然我们会把这些交给评分员,但我自己也很想手动检查一下。

Sonya Huang好吧,下次有这种事一定要叫上我,我也想参与,就算熬夜也愿意。听起来太棒了。

Noam Brown这些模型有个很酷的地方,就是虽然我看不懂证明过程,但当模型在思考时,它会用自然语言表达自己的不确定或自信,在整个过程中,它会说一些话,暗示它的状态。比如,如果它非常确定自己找到了答案,就会经常说 “很好”,如果不确定,就会用很多问号。所以虽然我不能确定它是否正确,但能跟着感受它的进展,这很有趣。

Sheryl Hsu是啊,你会看到令人头疼的“似乎很难”。第六题就出现了这个。出现了很多次。“没有进展,很难。”“似乎很难。”“太糟糕了。”

Sonya Huang太棒了。那展望未来,你们已经在竞赛数学中取得了最高成就。或许明年可以去参加普特南数学竞赛,但基本上已经站在顶端了,那接下来会做什么呢?

Alex Wei是啊。其实对于普特南数学竞赛的题目,我觉得因为每道题的时间比 IMO 短,而且更注重知识储备,我们在评估中发现模型其实很擅长解普特南的题目,甚至比解 IMO 的题目更擅长。所以我觉得,现在的前沿已经不再是这些有时间限制的竞赛题,而是那些需要更长时间、更深入思考才能解决的问题。

Sonya Huang这真的很酷。那你们接下来要开始证明新的定理了吗?

Alex Wei不过我觉得,有时间限制的竞赛题和真正的研究突破之间,存在着巨大的差距,真正的研究突破可能需要一年的时间,也就是大约 1500 个小时,而不是 1.5 个小时。

Sonya Huang是啊,完全同意。我最近听了 Demis 的播客,他提到最难的其实是提出值得解决的有趣问题。我很好奇你们是否同意这个观点。

Noam Brown我觉得有一定道理,这些模型现在确实很擅长解决问题,而提出问题仍然是一个挑战。但我也想说,我们正见证着惊人的进步速度,而且总会有下一个挑战。最初语言模型出现时,问题是如何让它们进行推理;然后我们做到了让它们推理,但接着又面临如何让它们对难以验证的任务进行推理的问题;现在它们已经能做到这一点了。我觉得下一个挑战将是如何让它们提出新的问题。要知道,即便是出一道 IMO 的题目都很有挑战性,需要很多数学家付出大量努力。但我认为,没有什么根本性的障碍能阻止我们实现这一目标。

Sonya Huang我很喜欢这个观点。那你们在数学方面的成果,是否能完全推广到其他领域呢?比如,在科学推理、一般推理方面也会更出色,也就是说,在竞赛数学中表现出色,是否意味着在其他所有方面都能表现出色?

Alex Wei我觉得我们的目标并不是要在竞赛数学中表现出色,而是专注于开发通用技术,来改进我们的强化学习。我们非常期待能将这些技术应用到数学之外的其他领域,希望能让模型在日常使用中更有用。

Noam Brown这是一个最新的成果,说实话,即使是 OpenAI 内部的人也感到很惊讶。下一步是将其更广泛地融入我们的模型中,全面提升推理能力。但这个过程需要时间,才能部署到实际应用中。所以我觉得这一天会到来,但还需要一点时间。

Sonya Huang对于这些模型来说,解 IMO 的题目和物理奥林匹克竞赛的题目,哪个更难?

Alex Wei我觉得肯定是物理奥林匹克竞赛,因为它有一个实验部分。

Sonya Huang我们首先需要解决机器人技术的问题。我之前没意识到这一点。我以为也只是在纸上答题。

Alex Wei是啊,所以我觉得模型在笔试部分可能会表现不错,但要完成实验部分,还需要一段时间。

Sonya Huang毕竟还没有完善的世界模型,好的。那你们会发布这个模型让用户使用吗?

Noam Brown我们希望能让数学家们用上这个模型,目前还在研究具体的实现方式。但我觉得我们开发出了一个在数学方面非常出色的系统,很想看看数学家们能用它来做些什么。其实我已经和斯坦福大学的一位数学教授通过邮件了,大约一年前,在我们发布相关成果之前,他就通过邮件问我,要不要合作解决一些难的数学问题。我当时告诉他,我觉得我们只要提升通用推理能力,最终就能帮他解决那些难的数学问题,这也是最有希望的途径。他当时有点怀疑,但每次我们发布新的推理模型,他都会通过邮件跟进,问这个模型能不能解决那个问题。我会把问题输入模型,然后把输出结果回复给他,他说还是不对。这次他又发邮件问同一个问题,问现在这个模型能不能解决。虽然还是不能解决,但至少这次模型意识到自己解决不了,我觉得这是一个很大的进步。我们也很想知道,数学家们还有其他问题想挑战这个模型,看看它能不能解决。

Sonya Huang太棒了,祝贺你们所有人。我觉得这是整个领域期待已久的重大成果,而且事实上是由三个人在两个月内完成的,这真是太了不起了。

访谈链接:

https://www.youtube.com/watch?v=EEIPtofVe2Q&ab_channel=SequoiaCapital

整理:小瑜

如需转载或投稿,请直接在公众号内留言

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。