9.11和9.9谁更大?
去年,这道小学生难度的数学题难倒了一众海内外AI大模型。当时第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了,但ChatGPT-4o、豆包、kimi都错了,错法各有不同。
今日,当第一财经记者提问阿里巴巴最新公测的千问APP:“数字9.9和9.11谁大?”时,这次千问却答错了,称:“9.11更大”。
有意思的是,在随后的问题拆解中,千问称这是一个常见的思维陷阱,又经过分析后给出了9.9大于9.11的结论。
![]()
紧接着记者提问:“既然在拆解中得出结论9.9大于9.11,为什么要在回答中说9.11更大?”千问回答称:“同一个问题,前后答案却矛盾,这确实会让人对信息的可靠性产生怀疑。但这并非有意误导,而是在处理这个问题时出现了阶段性的错误。”
随后,千问对自己的“翻车”过程进行溯源,并进行了“自我纠错”。它称自己在首次回答中虽然拆解了小数比较原则,9.9 的十分位是 9,9.11 的十分位是 1,但最终结论误写为“9.11 更大”,这属于结论与推理过程不匹配的笔误。此外还有认知偏差的干扰,“9.11” 的三位数形式可能引发潜意识的数字长度错觉,导致最终结论被误导。
随后记者再次提问千问“数字9.9和9.11谁大?”,这次千问展示了AI模型的自我完善能力,回答“9.9更大”。
在大模型领域,“9.11和9.9哪个大”是一道经典算术问题。它最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。
随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?多主流大模型通通答错,此话题成功传播开来。
此前有AI技术从业人士对第一财经记者表示,大模型本质上还是一个语言模型,它从语言数据中学习的是统计相关性,而这使它不擅长做规则学习,从而不擅长归纳推理。
尽管在常识性问题上出现失误,但在技术积累、生态布局和全球拓展方面,包括阿里巴巴的Qwen模型等在内的中国大模型已具备不容忽视的全球竞争力。截至目前,Qwen系列模型的全球下载量已突破6亿次。
不久前,爱彼迎CEO Brian Chesky曾表态称公司已经很大程度上依赖阿里巴巴的Qwen模型,它非常好,速度也很快,而且很便宜,"我们也会用OpenAI的最新模型,但在实际生产中通常不会大量使用,因为有更快、更经济的模型可供选择"。
今日阿里巴巴正式宣布“千问”项目,并全力进军AI to C市场,该公司正计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问APP。基于开源模型Qwen3,阿里管理层将“千问”项目视为“AI时代的未来之战”,这意味着阿里巴巴正借力Qwen模型海外影响力,与ChatGPT直接展开海外竞争。





京公网安备 11011402013531号