当前位置: 首页 » 资讯 » 新科技 » 正文

GPT独立破解数论猜想的背后:答案藏在80年前的论文里

IP属地 中国·北京 DeepTech深科技 时间:2026-01-20 14:18:50

1 月 18 日,一位前量化研究员尼尔·索马尼(Neel Somani)在社交平台宣布,他借助 GPT-5.2 Pro 独立解决了 Erdős 问题第 281 号(Problem 281)。这是一个自 1980 年由数学家保罗·埃尔德什(Paul Erdős)与葛立恒(Ronald Graham)提出后,长期未被公开解答的数学猜想。

索马尼称,该证明已获得菲尔兹奖得主陶哲轩的认可,后者评价其“或许是迄今人工智能解决未解数学问题最明确的例子”。


(来源 :erdosproblem)

OpenAI 联合创始人格雷格·布罗克曼(Greg Brockman)随即转发并评论:“GPT-5.2 Pro 用于解决另一个未解决的 Erdős 问题。数学和科学的进步将是充满活力的一年!”一时间,“AI 独立攻克 45 年数学难题”的消息在社交媒体上广泛传播。


(X)

这并非索马尼首次用 AI 工具解决 Erdős 问题。几天前,他刚提交了对 Problem 397 的证明——一个关于中心二项式系数乘积的猜想。该证明同样由 GPT-5.2 Pro 生成,并通过形式化验证工具 Harmonic 的 Aristotle 系统转换为 Lean 代码,经陶哲轩确认为正确。

索马尼原本只是想测试一下大语言模型的数学能力,看看它们在何时能有效解决开放数学问题、又在哪里会遇到困难,却意外发现最新模型的能力边界已显著提升。

几天之内,大模型连续解决两个多年未解的“难题”。有评论不禁疑问:这是否意味着 AI 的数学能力已达到了人类数学家的水平?

要回答这个问题,或许需要先理解什么是“Erdős 问题”。

保罗·埃尔德什(Paul Erdős)什是 20 世纪最多产的数学家之一,一生发表论文逾 1,500 篇。他习惯提出数学猜想,并根据难度悬赏 25 至数千美元不等。他去世后留下超过一千个未解问题,涵盖数论、组合学、图论等多个领域,统称为“Erdős 问题”。这些问题目前由剑桥大学数学家托马斯·布鲁姆(Thomas Bloom)维护的网站 erdosproblems.com 追踪记录。


图 | 保罗·埃尔德什与10岁的陶哲轩 (Wikipedia)

然而,这些未解问题的难度跨度极大:一端是公认的核心难题,另一端则是大量长期无人关注的“长尾问题”。它们并非无解,只是缺乏足够研究动力。

自 2025 年圣诞节以来,该网站已有 15 个问题从“开放”转为“已解决”,其中 11 个涉及 AI 模型的参与。但并非所有“AI 解决”都具原创性。2025 年 10 月,OpenAI 曾宣称 GPT-5 解决了十个 Erdős 问题,后被布鲁姆澄清为乌龙事件:那些 GPT-5 生成的答案实为模型通过网络搜索复现了早已存在的论文成果,并非新发现。


图 | 布鲁姆回复OpenAI CPO (X )

真正的转折点出现在 2026 年 1 月初。剑桥大学本科生凯文·巴雷托(Kevin Barreto)与业余数学家利亚姆·普赖斯(Liam Price)共同宣布使用 GPT-5.2 Pro 解决了 Problem 728。陶哲轩称这是“第一个在原问题精神下、以文献中未曾记载的方式被 AI 基本自主解决的 Erdős 问题”,并评价其“或多或少是由 AI 自主完成的”,真实地体现了“这些工具近几个月的能力提升”。

那么,此次引发热议的 Problem 281 情况如何?

该问题涉及整数序列在同余类中的密度性质。索马尼发布的 GPT-5.2 Pro 证明采用了遍历理论(ergodic theory)的框架。陶哲轩确认其逻辑正确,并特别指出:“它避免了在极限或量词交换时常见的错误,前几代大语言模型几乎肯定会在这些微妙之处出错。”


图 | 陶哲轩对于Problem 281的回复(erdosproblem)

然而,就在讨论热烈进行时,论坛用户 KoishiChan 发帖指出:这个问题实际上可以通过 1966 年的 Rogers 定理,结合 Halberstam–Roth 著作中的 Theorem 12 直接解决。他还找到了一份存档文献,更清晰地阐述了这一论证路径。

陶哲轩顺着线索进一步追溯,发现这一解法的核心其实源自 1936 年剑桥数学家达文波特(Davenport)与埃尔德什本人合著的一篇论文。他在论坛上写道:“现在我真的很困惑,在同余领域深耕多年,埃尔德什在 1980 年肯定知道这两个定理,而且他还是后一个结果的共同作者。我不知道发生了什么。因为一旦了解 Rogers 定理,将其应用于这个问题是非常自然的;事实上,这个问题几乎就是 Davenport–Erdős 结果的一个特例。”


(scite_)

随后,陶哲轩与数学家特南鲍姆(Tenenbaum)进行了邮件交流,后者是埃尔德什长期的合作对象。特南鲍姆确认:“如果使用这两个定理,可以立竿见影地解决问题。”他推测,“现有的问题的表述可能在某个环节被修改过”,但目前尚未发现任何关于原始意图的替代版本,只能按现有表述来。KoishiChan 则半开玩笑地评论:“也许有人在鸡尾酒会上告诉了埃尔德什这个解法,但没人继续研究它。”

陶哲轩在论坛总结道,Problem 281 之所以未解,背后的原因主要是因为Rogers 定理“没有得到应有的传播”:该结果仅出现在 Halberstam–Roth 的专著中,从未以独立论文形式发表,文献中也仅被引用过寥寥数次。

换言之,GPT-5.2 Pro 的贡献其实并非解决了一个真正未解的难题,而是用一种新方法——遍历理论,去重新证明了一个早已可解、却因文献传播有限而被长期遗忘的问题。类似情况此前也出现在 Problem 333 等案例中:AI 擅长调用标准工具,高效解决那些“人类早就能解、只是长期无人关注”的问题。

更重要的是,就在讨论声愈发热烈的当天,陶哲轩还在发帖提醒公众需要警惕“报告偏差”(reporting bias)。他在 Mathsodon 上写道:“当研究者用 AI 尝试解题却失败时,几乎不会公开结果;而成功案例则极易在社交媒体病毒式传播。因此,我们看到的‘AI 连续攻克难题’印象,严重偏向正面。”


(Mathstodon)

为纠正这一偏差,他推广了数学家帕阿塔·伊万尼什维利(Paata Ivanisvili)与梅赫梅特·马尔斯·塞文(Mehmet Mars Seven)建立的数据库,系统记录 AI 尝试解决 Erdős 问题的全部结果。数据显示:AI 工具的真实成功率仅在 1% 到 2% 之间。


(GitHub)

陶哲轩评论道:“尽管如此,考虑到仍有六百多个未解问题,这仍带来了一组令人印象深刻且非平凡的贡献。但这些成功压倒性地集中在难度谱的低端,尚未触及中等难度问题。”

业内人士对此有不同的看法。Harmonic 公司创始人图多尔·阿希姆(Tudor Achim)指出:“真正有说服力的证据,不是媒体报道,也不是成功率,而是数学和计算机科学教授们开始在实际研究中使用这些工具的事实。他们有声誉要维护,不会轻易背书。”该公司开发的 Aristotle 工具能将自然语言证明自动转为 Lean 形式化代码,在 AI 辅助数学研究中扮演关键角色。

Erdős 网站维护者布鲁姆则对当前大模型的进步速度表示乐观:“目前被 AI 解决的问题,难度大概相当于一年级博士生水平。这仍然令人印象深刻——因为要做到这一点,需要不一般的推理能力。”他还提到,2025 年 10 月前,他尝试用 ChatGPT 时“只会编造论文,全是幻觉”,但“大约从 10 月起,某种实质性变化发生了”。

诚然,GPT-5.2 Pro 在数学推理上的进步是真实的:它能生成逻辑严密、规避常见错误的证明,这在一年前不可想象。并且,它在系统性挖掘被忽视的长尾问题、辅助文献检索与形式化验证方面展现出实用价值。

但同样重要的是:不要被社交媒体的选择性叙事误导。所谓“45 年未解”,很多时候只是45 年无人关注、无人挖掘;1%–2% 的成功率,远非AI 已掌握数学的信号。中等及以上难度的 Erdős 问题,目前仍远超当前 AI 的能力范围。

1.https://mathstodon.xyz/@tao

2.https://www.erdosproblems.com/forum/thread/2

3.https://mehmetmars7.github.io/Erdosproblems-llm-hunter/index.html

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新