在谷歌Kaggle平台举办的AI国际象棋锦标赛决赛中,ChatGPT开发商OpenAI的模型以压倒性优势战胜了埃隆马斯克旗下xAI公司的Grok。这场汇集Anthropic、谷歌、DeepSeek等八家大语言模型的赛事,成为科技巨头角力的新战场。
On a black and white chess board, a black king chess piece stands upright. It is surrounded by toppled white pawns. 赛事焦点:通用AI的棋艺对决
• 历史性测试场 :国际象棋长期被用作评估计算机能力的试金石。例如,1997年IBM深蓝击败国际象棋世界冠军卡斯帕罗夫※,2010年代谷歌DeepMind的AlphaGo又战胜韩国围棋大师李世石(后者赛后退役并感叹存在无法战胜的实体)。但本次比赛的特殊性在于——参赛模型并非专用棋类程序,而是服务于日常场景的通用AI。
粉丝们在纽约观看国际象棋世界冠军加里卡斯帕罗夫(电视屏幕上)和IBM深蓝电脑之间的国际象棋比赛。比赛从游戏室转播到礼堂,国际象棋专家分析每一步棋。
• OpenAI的完胜 :经过三日角逐,OpenAI的o3模型以全胜战绩晋级决赛,并在终极对决中四局全胜Grok 4。Grok在终局阶段多次出现送后(主动牺牲皇后)的重大失误,被国际象棋特级大师中村光在直播中点评为失误频发。
• 马斯克的回应 :决赛前马斯克在X平台声称,Grok此前胜出只是副作用,强调几乎未在象棋上投入精力。这与Chess.com记者Pedro Pinhata的观察形成反差——半决赛前Grok曾被视作无可阻挡的强者,但最终幻象在赛事最后一日破灭。
科技巨头的智能宣称战
赛事落幕之际,OpenAI与xAI的竞争更趋白热化:
• GPT-5的突破 :OpenAI首席执行官萨姆奥特曼将GPT-5定义为口袋里的博士团队,宣称其实现三大进化:
1. 采用新型推理模型增强逻辑能力
2. 显著减少幻觉现象(编造事实)与欺骗性输出
3. 编程能力达专业开发者水准
Sam Altman hearing a headset microphone on stage at an event
• 马斯克的隔空交锋 :GPT-5发布当日,马斯克在X平台宣称:Grok 4 Heavy两周前就比现在的GPT-5聪明。牛津大学伦理AI教授卡丽莎维利兹对此持保留意见:这些系统的盈利能力尚未验证,过度宣传恐存泡沫风险。
Elon Musk 商业模式的分歧与挑战
双方在AI商业化路径上显现根本差异:
我们迄今专注让Grok成为全球最精准的AI,现在该考虑如何支付昂贵GPU了。
——马斯克向广告商宣布Grok将引入付费推荐位
• OpenAI的伦理调整 :继五月因过度谄媚撤回更新后,OpenAI宣布GPT-5将引导用户自主思考情感决策(如该分手吗)。奥特曼承认:人们可能与AI建立具有潜在风险的拟社会关系,社会需要设立新的防护机制。
• xAI的盈利转型 :曾多次抨击OpenAI盈利化的马斯克,转向允许广告商付费植入Grok回复。此举引发准确性担忧——当商业利益渗透AI答案时,其可信度可能受损。更棘手的是,Grok此前曾发表反犹言论甚至批评马斯克本人,品牌合作风险显著。
Illustration shows OpenAI logo 历史棋局与未来挑战
这场赛事揭示出AI发展的新维度:
• 能力评估进化 :与深蓝依赖暴力计算不同,现代大语言模型展现出通用策略学习能力。卡斯帕罗夫曾讽刺深蓝为千万美元的闹钟。
• 监管紧迫性 :艾达洛芙莱斯研究所所长盖娅马库斯警告:AI能力与治理能力间的差距日益扩大
• 创作权争议 :Getty Images首席产品官强调:当AI内容以假乱真,必须审视训练数据来源并保障创作者权益
随着GPT-5向7亿用户开放,Grok增强版持续升级,这场关于智能水平与商业路径的较量,已远超棋局胜负,引发对AI伦理、监管框架及技术本质的深层思考。