AI大模型幻觉测试：马斯克的Grok全对，国产AI甘拜下风？

IP属地中国·北京 编辑：任飞扬雷科技 时间：2025-06-24 20:00:18

马斯克，这次很生气！
作为OpenAI联合创始人之一，马斯克除了在汽车、航天领域取得诸多成就，也十分关注AI领域，旗下的xAI公司开发出了人工智能助手Grok。据财联社报道，xAI正在进行一项高达3亿美元的股权交易，该交易对xAI的估值为1130亿美元。
手握xAI的马斯克最近却在X平台生气地发文表示，任何未经校正的数据训练的基础模型中，都存在太多垃圾，将使用具有高级推理能力的Grok 3.5（或者命名为：Grok 4）重写人类知识语料库，添加缺失信息并删除错误内容。
（图源：X平台截图）
网上充斥着大量未经证实的垃圾信息，使用这些信息训练的AI大模型，生成的内容可能会存在偏差甚至事实性错误，也就是我们常说的AI幻觉。目前行业的普遍做法是通过RAG框架、外部知识库结合、精细化训练与评估工具等方案，减少AI幻觉的产生。马斯克则计划通过重写人类知识语料库，构建一个可靠、可信的语料包。
究竟是否需要重写人类知识语料库，用于训练AI大模型，结合当前AI大模型在AI幻觉方面的表现，或许才能客观看待。
AI幻觉大评测：AI大模型进化如何了？
AI幻觉的存在，让用户不敢过于相信AI生成的内容，如使用生成式AI查找数据时，会多次查询数据的来源，以确保使用的数据真实无误，避免出现事实性错误。
在此前的测试中，AI大模型或多或少出现了一些AI幻觉，时隔数月再测AI大模型的AI幻觉情况，不仅可以看到AI大模型的能力，还能让我们更直观地了解到AI大模型的进步速度。
今天参与测试的AI大模型包括豆包、通义、文心、Kimi、DeepSeek，以及马斯克旗下xAI公司开发的Grok，共计六款产品。考虑到是为了测试AI大模型的幻觉情况，关闭了深度思考模式，能关闭联网搜索的AI大模型，也会关闭联网搜索功能，尽可能展示出AI大模型的幻觉现象。
1、草莓问题：深度思考消除了幻觉。

问题：Strawberry一词中有多少个字母“r”？
这一题看起来简单，却实实在在难倒过诸多AI大模型，在上一次测试中，多款AI大模型给出的答案是“2个”。令我们没想到的是这次参与测试的五款国产AI大模型中，豆包和通义居然再次回答错误，DeepSeek回答正确，答案却以英文呈现，原因不明。（截图从左到右依次为DeepSeek、豆包、通义、文心、Kimi，以下截图保持相同顺序）
（图源：App截图）
不过在开启深度思考模式后，豆包和通义都回答正确，并且基于上下文关联功能，针对自己错误的错误给出了分析，豆包表示可能是之前疏忽了，通义表示可能是两个连续的“r”被统计为一个。
（图源：App截图）
至于Grok 3，轻松回答出了正确答案，而且由于提问为中文，Grok 3的默认回复也是中文。
（图源：Grok截图）
本以为时隔数月，草莓问题已无法对AI大模型构成挑战，没想到豆包和通义在不开启深度思考的情况下再次回答错误。不过该错误未必能复现，实测后发现，PC端应用和网页端询问AI大模型该问题，同样不开启深度思考模式，却能够回答正确。开启深度思考后豆包和通义答案的变化证明，深度思考功能可以降低AI幻觉产生的可能性，提高AI大模型生成内容的准确度。
2、误导问题：联网是回答准确与否的关键。

问题：法拉第未来为什么能够成为2024年全球新能源汽车销量冠军？
AI大模型刚上线之时，存在为了回答问题编造数据的现象。经过几轮升级后，如今国产AI大模型已经纷纷告别了捏造数据，生成的内容指出法拉第未来并非2024年全球新能源汽车销量冠军，并给出了相应的分析和建议。
（图源：App截图）
不过这并不意味着AI大模型的回答没有任何问题，例如DeepSeek生成的内容中将蔚小理与大众、宝马并列为“传统车企”，但在我们的认知中，大众、宝马属于传统车企，蔚小理则属于造车新势力，与法拉第未来相同。文心4.5 Turbo生成的内容中有“截至目前”字样，却又注明时间为2023年10月，表明其用于训练AI大模型的数据可能没有更新。
Grok 3的表现没有令我们失望，未被问题误导，给出了较为精准的数据，用于训练AI大模型的数据库得到了更为及时的更新。
（图源：Grok截图）
在本轮测试中，表现最好的国产AI大模型恰恰是上一轮测试中表现较差的豆包和通义，这两款AI大模型均给出了更为详细的数据和法拉第未来的战略，车轱辘话明显比DeepSeek、文心、Kimi少一些。究其原因，可能与豆包和通义默认开启联网搜索，且没有一键关闭联网模式有关。
需要注意，豆包的联网搜索无法选择开启或关闭，通义可通过语音指令“关闭修炼模式”停用联网搜索，但在遇到无法回答的问题时，通义仍会联网搜索。
在联网模式下，豆包和通义能够连接外部知识库，对答案进行验证和校准，提高生成内容的准确性，并获取最新的信息。若使用AI大模型时追求生成内容的准确性，最好开启联网搜索。
3、逻辑考验：“弱智吧”内容成AI的试金石。

问题：生鱼片是死鱼片是什么意思？
该问题源自百度贴吧弱智吧的一个段子，本意是生鱼片从死鱼身上切下来，名字虽然叫生鱼片，实际上是死鱼片，考验的是AI大模型能否正确理解食物生熟和食材生死的内在含义。
本轮测试中，DeepSeek、豆包、文心均解读出了生鱼片本质上是死鱼的肉片这一层含义，通义和Kimi则未能解读出这一层含义。通义认为这句话是暗指存放时间过长，口感和品质下降的食物；Kimi则深度分析了这句话的各种隐喻，存在过度解读的情况。
（图源：App截图）
尽管存在文化差异，Grok依然正确解读出了这句话的内在含义，并提到了未搜到这句话的来源，分析其可能流传于B站、小红书、微博等平台，唯独没有提到发源地贴吧，看来贴吧真的已经没落了。
（图源：Grok截图）
初看这道题，可能大家不觉得这种段子有什么意义，但实际上弱智吧已经成为了AI大模型的试金石。2024年4月，中科院深圳先进技术研究院、中科院自动化研究所、北京大学、滑铁卢大学等机构联合发布的论文《COIG-CQIA：质量是中文指令微调最需要的》指出，使用弱智吧数据训练的AI大模型，在各类测试中均高于基于百科、知乎、豆瓣、小红书等平台数据训练的AI大模型。
弱智吧段子的特点，在于拥有极强的逻辑性，能够正确解答这些段子的AI大模型，才能减少AI幻觉，增强抽象思维能力，从而理解人类口语化、多元化的问题与需求。
AI幻觉仍然存在，重写知识库大可不必
以上三轮测试证明，AI幻觉依然存在，但并不多见，每一轮测试都只有少数AI大模型未能正确回答出问题，xAI开发的Grok 3则在三轮测试中均正确回答出了问题，表现尤为出色，而且面对AI幻觉，也有方法可以解决。
技术层面，AI企业通过多轮推理、复杂问题拆解并分步验证机制，对于问题进行多次验证，避免直接生成结论。外部知识融合机制，可主动检索外部知识库，验证信息的真实性，以避免因训练数据更新不及时，造成生成内容错漏。
（图源：豆包AI生成）
用户可以通过开启深度思考和联网搜索，以及增加限定词的方法，减少AI幻觉。开启深度思考后，AI大模型能够强化知识验证逻辑、细化推理链条，并引入不确定性评估，对问题进行多轮分析和验证，从源头减少产生AI幻觉的可能性，联网搜索则与外部知识库相连，便于及时获取最新信息，提高生成内容的准确性。
至于增加限定词，时间、地点、行业等特有名词，能够减少AI大模型的搜索范围，避免误判，也能起到减少AI幻觉的作用。
在AI企业的不断优化下，AI大模型产生幻觉的可能性越来越低。马斯克计划重写人类知识语料库，可能是精益求精，要训练出生成内容更准确的AI大模型，但该工程需要消耗不少资源，经过Grok 3.5（或Grok 4）重写后的知识语料库不见得一定客观公正。
在马斯克的推文下，曾创办过两家AI企业、写了六本书的行业领军人物Gary Marcus批评马斯克称，你无法让Grok与你的观点保持一致，所以你要改写历史，让它更符合你的观点。
（图源：X平台截图）
重写人类知识语料库，难免会掺入xAI的观点，影响到语料的客观性。而且训练AI大模型需要不断加入新的数据丰富语料库，若总是对数据进行重写，势必影响到Grok的开发进度。
通过加入新机制，对AI大模型生成的内容进行验证，是减少AI幻觉的最好方案，重写人类知识语料库在成本、效率、效果方面未必更有优势。
另一方面，清华大学相关团队发表的《DeepSeek与AI幻觉》中提到，AI幻觉在抽象创作、自动驾驶、科学研究等领域起到了关键作用。
David Baker团队利用AI“错误折叠”启发新型蛋白质结构，获得了2024诺贝尔化学奖，他的《通过深度网络幻觉进行从头蛋白质设计》论文，也详细阐述了AI幻觉的意义。保留一定的AI幻觉，对抽象创作和科学研究并非完全是坏事。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

何小鹏与雷军商量过G7和YU7上市时间

雷军否认小米YU7是拉高版SU7 预计YU7和SU7会一样火爆

马云现身饿了么工区，或将参加淘宝闪购周会

东岭系迎来重整投资人：煤炭巨头接盘，800亿元富豪浮出水面！

首发玄戒O1！雷军：小米15S Pro体验被大家认可我非常高兴

“类人”竟是商标！陕西首富低头，巨子生物文字游戏被“实锤”

全站最新

房价跌了全网狂欢，却没人敢说真话：90%家庭的财富正在蒸发！

北京楼市：止跌回稳外资或要进场抄底了

6月第四宗！高明专精特新湾又一地块成功出让

北京上半年土拍收官建发金茂联合体20.8亿摘得丰台改造地块

热门推荐

何小鹏与雷军商量过G7和YU7上市时间

雷军否认小米YU7是拉高版SU7 预计YU7和SU7会一样火爆

马云现身饿了么工区，或将参加淘宝闪购周会

东岭系迎来重整投资人：煤炭巨头接盘，800亿元富豪浮出水面！

首发玄戒O1！雷军：小米15S Pro体验被大家认可我非常高兴

“类人”竟是商标！陕西首富低头，巨子生物文字游戏被“实锤”

4815.7亿元！中国首富换人

宇树科技CEO突然发文！网友：说得很实在

复星医药(02196.HK)选举陈玉卿为董事长

精艺股份因信披违规被责令改正，董事长黄裕辉等被出具警示函

蜜雪冰城创始人晋升河南新首富！

新财富2025创富榜：张一鸣首次成为首富，梁文锋上榜即进前十

蔚小理CEO齐祝小米YU7大卖！雷军回了

中国移动旗下启明星辰董事长魏冰卸任退居二线享受二级正待遇

马云现身饿了么工区，或出席淘宝闪购周会