机器之心报道
机器之心编辑部
就在上个周末,Sam Altman 大张旗鼓地宣布,OpenAI 的一款未公开实验性大语言模型在 2025 年国际数学奥林匹克竞赛(IMO)中达到了金牌水平,得分 35/42,成功跻身全球顶尖数学竞赛选手行列。
有意思的是,据报道不止 OpenAI,谷歌 DeepMind 在这次比赛中,也拿到了 IMO 金牌。但相比 OpenAI 的高调官宣,这次谷歌显得有点低调。
谷歌的低调是有原因的,根据 IMO 组委会一位成员、两届 IMO 金牌得主 Joseph Myers 的说法,IMO 曾要求 AI 公司(即参赛的大模型)不要抢走参赛学生的风头,建议在闭幕式后一周再公布相关结果,一方面是出于对人类参赛者的尊重,另一方面也是为了留出时间对人工智能提交的答案和格式进行验证。
然而,OpenAI 却在闭幕式之前(但根据 OpenAI 研究科学家 Noam Brown 的说法是之后)就公布了结果。
IMO 评审团和协调员的普遍看法是,OpenAI 的这种做法很无礼,也不合适。
遗憾的是,OpenAI 似乎更在乎炒作和声量,不惜抢占参赛学生的风头,于是他们在昨天就提前公布了结果。
来自 OpenAI 的员工在庆祝自家模型获得了 IMO 金牌,时间和 IMO 闭幕式时间非常相近,闭幕时间在 7 月 19 日(当地时间)下午 4 点举行。
也不知是否是因为 OpenAI 抢发,机器之心也了解到,谷歌 DeepMind 与字节 Seed 团队 IMO 竞赛的结果,也将在今天或者近期公布,且分数是官方评的。
另外,Joseph Myers 还表示,OpenAI 没有与 IMO 合作测试他们的模型,91 名官方 IMO 协调员都没有对 OpenAI 的解决方案进行评级。
相比来看,DeepMind 似乎很遵守规则,并耐心等待官宣时间。
一家专注于数学 AI 的初创公司 Harmonic 公开证实了这一点:「为了维护学生竞赛的神圣性,IMO 董事会要求参赛的 AI 公司需要等到 7 月 28 日发布结果。」
看来,OpenAI 确实是没有遵守 IMO 要求,提前就把结果公布了。
谷歌 DeepMind 推理团队负责人 Thang Luong 对此事也进行了点评,表示道,IMO 组委会确实有一份官方评分标准,但这份评分指南并未对外公开。如果没有依据该评分标准进行评估,参赛组织就无法宣称获得奖牌。如果有一分被扣,那就是银牌,而不是金牌。
IMO 金牌得主 Jasper 观点与 Thang Luong 的观点相似:IMO 的竞赛题目通常包括 6 道,每个问题 7 分。金牌的分数线是 35 分,银牌 28 分,铜牌 19 分。即使是扣除很少的分数,OpenAI 也可能跌落到银牌。Jasper 认为从 OpenAI 提交的内容来看,他们的答案很可能会被扣掉一些分数。
陶哲轩(Terence Tao)也指出,尽管题目保持不变,但测试形式至关重要。一名在标准条件下可能无法获得铜牌的学生,若在修改后的赛制下甚至可能摘金。所以说,OpenAI 是否获得金牌,现在还是一个问号。
如果真像前文所说的,OpenAI 最终获得银牌,这种反转还是挺残酷的,毕竟他们大肆宣传自己的模型是金牌得主水平了。
OpenAI :没有人通知我们一周后才能公布
对于此事,OpenAI 也做出了回应,OpenAI 研究科学家 Noam Brown 表示,他们是在闭幕式之后发布的结果,他个人提前联系了一位 IMO 组织者,并根据其建议时间发布结果。同时,Noam Brown 表示,没有人告诉他们「一周之后」才能发布。
另外,Noam Brown 还表示 IMO 官方几个月前曾联系他们,提出在比赛结束后提供 Lean 格式(允许用户将数学定理和证明以机器可验证的形式表达)的题目,但 OpenAI 拒绝了。
这算不算回应了前面的质疑:官方要求参赛 AI 公司闭幕式后一周再公布相关结果,但我们根本没参赛。
这一回应引发了网友的激烈讨论,对此你怎么看呢?