AI 发展的速度比我们想象得更快。
就在上个月,我们曾报道顶尖的大语言模型们还在奥数级别的基准测试中集体受挫,而仅仅一个月后,AI 便已能在真正的国际数学奥林匹克竞赛中斩获金牌。
当地时间 7 月 21 日,谷歌 DeepMind 宣布,其研发的人工智能系统在国际数学奥林匹克(IMO,International Mathematical Olympiad)中取得了历史性的突破,正式获得了“金牌”级别的成绩。这标志着人工智能首次在官方认证的 IMO 竞赛中达到如此高的成就,同时也表明 AI 在复杂推理能力上迈出了关键一步。
在今年于澳大利亚举行的第 66 届国际数学奥林匹克竞赛中,谷歌 DeepMind 参赛的 AI 模型“Gemini Deep Think”成功解答了全部六道题目中的五道,最终获得了 35 分(满分 42 分)的优异成绩。根据 IMO 的评分标准,这一分数足以摘得金牌。IMO 主席 Prof. Dr. Gregor Dolinar 评价这些解答“在许多方面都令人震惊”,认为它们“清晰、准确,大部分都容易理解”。
图丨本次 IMO 的题目之一(DeepMind)
此次谷歌的胜利,不仅在于分数的突破,更重要的是其实现方式也产生了巨大变革。去年,DeepMind 的两个系统 AlphaGeometry 和 AlphaProof 联手获得了银牌,解决了六题中的四题。但当时的系统需要人类专家先将自然语言描述的赛题手动翻译成名为“Lean”的形式化计算机语言,AI 才能进行处理,整个过程耗时两到三天。而今年的 Gemini Deep Think 则完全不同,它是一个能够直接理解并处理自然语言问题的“推理系统”,在与人类选手相同的 4.5 小时竞赛时限内,端到端地完成了从读题到生成严谨数学证明的全过程,无需任何人工干预。
(DeepMind)
Gemini Deep Think 的成功,得益于谷歌在 AI 推理技术上的最新研究成果。该模型采用了一种被称为“并行思维”(parallel thinking)的先进技术,使其能够同时探索和整合多个潜在的解题思路,而不是像传统 AI 模型那样沿循单一的线性推理路径,从而大大提升了解决复杂问题的效率和创造性。此外,DeepMind 团队还运用了新的强化学习技术,通过一个包含高质量数学解题方案的精选数据库对 Gemini 进行专门训练,使其掌握了更高级的多步推理和定理证明能力。
有意思的是,在解决其中一道许多人类选手需要动用研究生级别数学知识的难题时,Gemini Deep Think 却另辟蹊径,仅凭基础的数论知识就给出了一个“绝妙的观察”和自洽的证明,其解法比许多人类参赛者的更为简洁优雅。这在某种程度上也表明,AI 在复杂问题面前,已经具备了超越常规思路、发现创新解法的潜力。
不过,这次成就的发布过程颇具戏剧性。就在谷歌公布消息的两天前,OpenAI 的一位研究员在社交媒体上抢先宣布,他们的一款实验性 AI 模型也在今年的 IMO 中取得了出色的“金牌”成绩——同样是解出五道题,获得 35 分。
但区别在于,OpenAI 并未正式参与 IMO 的官方评估流程,而是他们组建了一个由三位前 IMO 奖牌得主构成的独立小组来为自己的 AI 打分。而谷歌则是与 IMO 官方合作,由竞赛协调员根据学生评分标准正式评定成绩,也因此,只有谷歌的成绩得到了 IMO 官方的认证。
此外,据多方消息透露,IMO 官方曾请求所有参与测试的 AI 公司在闭幕式后等待一周再公布成绩,以便让焦点首先集中在获奖的青少年学生身上。谷歌 DeepMind 遵守了这一约定,而 OpenAI 则在闭幕式当天就迫不及待地公布了其“自评”的成绩,这种做法在 AI 社区引发了激烈争议。DeepMind CEO Demis Hassabis 在社交媒体上含蓄地讽刺了一下友商:“顺便说一下,我们没有在周五宣布,是因为我们尊重 IMO 委员会的原始要求,即所有 AI 实验室都应该在官方结果得到独立专家验证且学生们理应获得应有的赞誉之后才分享他们的结果。”
图丨相关推文(X)
值得注意的是,无论是谷歌的 Gemini Deep Think 还是 OpenAI 的模型,都未能攻克本届 IMO 难度最高的第六题。这道题目要求计算覆盖一个给定空间所需的最少矩形数量,最终只有 5 名人类学生成功解出。据悉,Gemini 在解这道题时,从一个错误的假设出发,最终未能找到正确路径。这也从侧面说明,尽管 AI 在逻辑推理方面取得了长足进步,但在面对某些极具挑战性和创造性的问题时,与顶尖的人类智慧相比,仍有其局限性,需要从这些年轻的数学天才身上学习。
著名数学家陶哲轩也在社交媒体上详细分析了评估 AI 能力的复杂性,他表示,AI 系统的表现很大程度上取决于被给予的资源和辅助条件。他用人类参赛者的类比来说明,如果改变竞赛格式(比如给学生几天时间而不是 4.5 小时,或者允许使用工具),那么成绩和排名可能会发生巨大变化。因此,在不同规则下对 AI 的能力进行比较,需要格外谨慎。
图丨相关推文(X)
但无论如何,这次比赛对谷歌而言,都堪称一次“双赢”——由他们赢两次,不仅证明其在与 OpenAI 等对手的“AI 竞赛”中占据了有利身位,还因为竞争对手本身的抢跑而获得了好名声。
基于这次的成功,谷歌方面也公布了后续的商业化路径:计划向一组由数学家组成的受信任测试者提供一个版本的 DeepMind 模型,之后会将其推广给每月支付 250 美元的 Google AI Ultra 订阅用户。他们相信,这种结合了自然语言流畅性和严谨推理能力的 AI 系统,将成为数学家、科学家和工程师的宝贵工具,最终推动人类知识的边界,加速 AGI 的到来。
参考资料:
1.https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/
2.https://x.com/demishassabis/status/1947337618787615175?ref_src="https://www.top168.com/static/image/lazy.gif" class="lazy" original="https://www.top168.com/static/image/nopic320.png">
运营/排版:何晨龙