当前位置：首页 » 资讯 » 新科技 » 正文

阿里公测千问对标ChatGPT，但9.9和9.11谁大还是“翻车”了

IP属地中国·北京 第一财经资讯 时间：2025-11-17 18:08:50

9.11和9.9谁更大？
去年，这道小学生难度的数学题难倒了一众海内外AI大模型。当时第一财经记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了，但ChatGPT-4o、豆包、kimi都错了，错法各有不同。
今日，当第一财经记者提问阿里巴巴最新公测的千问APP：“数字9.9和9.11谁大？”时，这次千问却答错了，称：“9.11更大”。
有意思的是，在随后的问题拆解中，千问称这是一个常见的思维陷阱，又经过分析后给出了9.9大于9.11的结论。

紧接着记者提问：“既然在拆解中得出结论9.9大于9.11，为什么要在回答中说9.11更大？”千问回答称：“同一个问题，前后答案却矛盾，这确实会让人对信息的可靠性产生怀疑。但这并非有意误导，而是在处理这个问题时出现了阶段性的错误。”
随后，千问对自己的“翻车”过程进行溯源，并进行了“自我纠错”。它称自己在首次回答中虽然拆解了小数比较原则，9.9 的十分位是 9，9.11 的十分位是 1，但最终结论误写为“9.11 更大”，这属于结论与推理过程不匹配的笔误。此外还有认知偏差的干扰，“9.11” 的三位数形式可能引发潜意识的数字长度错觉，导致最终结论被误导。
随后记者再次提问千问“数字9.9和9.11谁大？”，这次千问展示了AI模型的自我完善能力，回答“9.9更大”。
在大模型领域，“9.11和9.9哪个大”是一道经典算术问题。它最开始被艾伦研究机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”他表示。
随后Scale AI的提示工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大？多主流大模型通通答错，此话题成功传播开来。
此前有AI技术从业人士对第一财经记者表示，大模型本质上还是一个语言模型，它从语言数据中学习的是统计相关性，而这使它不擅长做规则学习，从而不擅长归纳推理。
尽管在常识性问题上出现失误，但在技术积累、生态布局和全球拓展方面，包括阿里巴巴的Qwen模型等在内的中国大模型已具备不容忽视的全球竞争力。截至目前，Qwen系列模型的全球下载量已突破6亿次。
不久前，爱彼迎CEO Brian Chesky曾表态称公司已经很大程度上依赖阿里巴巴的Qwen模型，它非常好，速度也很快，而且很便宜，"我们也会用OpenAI的最新模型，但在实际生产中通常不会大量使用，因为有更快、更经济的模型可供选择"。
今日阿里巴巴正式宣布“千问”项目，并全力进军AI to C市场，该公司正计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问APP。基于开源模型Qwen3，阿里管理层将“千问”项目视为“AI时代的未来之战”，这意味着阿里巴巴正借力Qwen模型海外影响力，与ChatGPT直接展开海外竞争。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

OpenAI奥尔特曼批Anthropic超级碗广告“撒谎”，还揭其老底

把推特改成X之后马斯克成功把用户送给了扎克伯格

姚顺雨腾讯第一篇论文，道破为什么AI死活听不懂人话

“太意外了……竟然一抬头看见马老师！”马云深夜现身阿里总部，和这件事有关

腾讯姚顺雨署名首篇论文发布，「下半场」先搞上下文学习

数商云AI大模型开发服务：覆盖金融/医疗/制造的全行业定制化解决方案

全站最新

OpenAI奥尔特曼批Anthropic超级碗广告“撒谎”，还揭其老底

把推特改成X之后马斯克成功把用户送给了扎克伯格

姚顺雨腾讯第一篇论文，道破为什么AI死活听不懂人话

“太意外了……竟然一抬头看见马老师！”马云深夜现身阿里总部，和这件事有关

热门推荐

OpenAI 与亚马逊合作，或将推出定制化AI产品

避谈10亿美元苹果交易:Alphabet 财报会“冷处理”AI 合作细节，背后暗藏变现焦虑

苹果与谷歌深度“联姻”：新版 Siri 运算或将落地谷歌云服务器

科研界的“幻觉杀手”：OpenScholar 模型诞生，引文准确率比肩人类专家

重庆发布“人工智能+制造”新政：垂类大模型研发最高可获 200 万元奖补

奥尔特曼公开炮轰 Anthropic：超级碗广告“撒谎”，搞双标话术

月活7.5亿直逼 ChatGPT!谷歌财报狂揽4000亿，Gemini3彻底带飞 Alphabet

万亿参数巅峰：上海AI实验室开源全球最大科学多模态模型Intern-S1-Pro

Anthropic宣布：最新的 Claude 对话功能将不再包含广告

西门子完成收购 Canopus AI，以计算量测技术强化 Calibre 生态

贾跃亭“具身智能”梦圆:FF 发布三大系列 EAI 机器人

西门子收购 Canopus AI，推动半导体测量技术的智能化进程

OpenAI奥尔特曼批Anthropic超级碗广告“撒谎”，还揭其老底

把推特改成X之后马斯克成功把用户送给了扎克伯格

姚顺雨腾讯第一篇论文，道破为什么AI死活听不懂人话