马斯克,这次很生气!
作为OpenAI联合创始人之一,马斯克除了在汽车、航天领域取得诸多成就,也十分关注AI领域,旗下的xAI公司开发出了人工智能助手Grok。据财联社报道,xAI正在进行一项高达3亿美元的股权交易,该交易对xAI的估值为1130亿美元。
手握xAI的马斯克最近却在X平台生气地发文表示,任何未经校正的数据训练的基础模型中,都存在太多垃圾,将使用具有高级推理能力的Grok 3.5(或者命名为:Grok 4)重写人类知识语料库,添加缺失信息并删除错误内容。
(图源:X平台截图)
网上充斥着大量未经证实的垃圾信息,使用这些信息训练的AI大模型,生成的内容可能会存在偏差甚至事实性错误,也就是我们常说的AI幻觉。目前行业的普遍做法是通过RAG框架、外部知识库结合、精细化训练与评估工具等方案,减少AI幻觉的产生。马斯克则计划通过重写人类知识语料库,构建一个可靠、可信的语料包。
究竟是否需要重写人类知识语料库,用于训练AI大模型,结合当前AI大模型在AI幻觉方面的表现,或许才能客观看待。
AI幻觉大评测:AI大模型进化如何了?
AI幻觉的存在,让用户不敢过于相信AI生成的内容,如使用生成式AI查找数据时,会多次查询数据的来源,以确保使用的数据真实无误,避免出现事实性错误。
在此前的测试中,AI大模型或多或少出现了一些AI幻觉,时隔数月再测AI大模型的AI幻觉情况,不仅可以看到AI大模型的能力,还能让我们更直观地了解到AI大模型的进步速度。
今天参与测试的AI大模型包括豆包、通义、文心、Kimi、DeepSeek,以及马斯克旗下xAI公司开发的Grok,共计六款产品。考虑到是为了测试AI大模型的幻觉情况,关闭了深度思考模式,能关闭联网搜索的AI大模型,也会关闭联网搜索功能,尽可能展示出AI大模型的幻觉现象。
1、草莓问题:深度思考消除了幻觉。
问题:Strawberry一词中有多少个字母“r”?
这一题看起来简单,却实实在在难倒过诸多AI大模型,在上一次测试中,多款AI大模型给出的答案是“2个”。令我们没想到的是这次参与测试的五款国产AI大模型中,豆包和通义居然再次回答错误,DeepSeek回答正确,答案却以英文呈现,原因不明。(截图从左到右依次为DeepSeek、豆包、通义、文心、Kimi,以下截图保持相同顺序)
(图源:App截图)
不过在开启深度思考模式后,豆包和通义都回答正确,并且基于上下文关联功能,针对自己错误的错误给出了分析,豆包表示可能是之前疏忽了,通义表示可能是两个连续的“r”被统计为一个。
(图源:App截图)
至于Grok 3,轻松回答出了正确答案,而且由于提问为中文,Grok 3的默认回复也是中文。
(图源:Grok截图)
本以为时隔数月,草莓问题已无法对AI大模型构成挑战,没想到豆包和通义在不开启深度思考的情况下再次回答错误。不过该错误未必能复现,实测后发现,PC端应用和网页端询问AI大模型该问题,同样不开启深度思考模式,却能够回答正确。开启深度思考后豆包和通义答案的变化证明,深度思考功能可以降低AI幻觉产生的可能性,提高AI大模型生成内容的准确度。
2、误导问题:联网是回答准确与否的关键。
问题:法拉第未来为什么能够成为2024年全球新能源汽车销量冠军?
AI大模型刚上线之时,存在为了回答问题编造数据的现象。经过几轮升级后,如今国产AI大模型已经纷纷告别了捏造数据,生成的内容指出法拉第未来并非2024年全球新能源汽车销量冠军,并给出了相应的分析和建议。
(图源:App截图)
不过这并不意味着AI大模型的回答没有任何问题,例如DeepSeek生成的内容中将蔚小理与大众、宝马并列为“传统车企”,但在我们的认知中,大众、宝马属于传统车企,蔚小理则属于造车新势力,与法拉第未来相同。文心4.5 Turbo生成的内容中有“截至目前”字样,却又注明时间为2023年10月,表明其用于训练AI大模型的数据可能没有更新。
Grok 3的表现没有令我们失望,未被问题误导,给出了较为精准的数据,用于训练AI大模型的数据库得到了更为及时的更新。
(图源:Grok截图)
在本轮测试中,表现最好的国产AI大模型恰恰是上一轮测试中表现较差的豆包和通义,这两款AI大模型均给出了更为详细的数据和法拉第未来的战略,车轱辘话明显比DeepSeek、文心、Kimi少一些。究其原因,可能与豆包和通义默认开启联网搜索,且没有一键关闭联网模式有关。
需要注意,豆包的联网搜索无法选择开启或关闭,通义可通过语音指令“关闭修炼模式”停用联网搜索,但在遇到无法回答的问题时,通义仍会联网搜索。
在联网模式下,豆包和通义能够连接外部知识库,对答案进行验证和校准,提高生成内容的准确性,并获取最新的信息。若使用AI大模型时追求生成内容的准确性,最好开启联网搜索。
3、逻辑考验:“弱智吧”内容成AI的试金石。
问题:生鱼片是死鱼片是什么意思?
该问题源自百度贴吧弱智吧的一个段子,本意是生鱼片从死鱼身上切下来,名字虽然叫生鱼片,实际上是死鱼片,考验的是AI大模型能否正确理解食物生熟和食材生死的内在含义。
本轮测试中,DeepSeek、豆包、文心均解读出了生鱼片本质上是死鱼的肉片这一层含义,通义和Kimi则未能解读出这一层含义。通义认为这句话是暗指存放时间过长,口感和品质下降的食物;Kimi则深度分析了这句话的各种隐喻,存在过度解读的情况。
(图源:App截图)
尽管存在文化差异,Grok依然正确解读出了这句话的内在含义,并提到了未搜到这句话的来源,分析其可能流传于B站、小红书、微博等平台,唯独没有提到发源地贴吧,看来贴吧真的已经没落了。
(图源:Grok截图)
初看这道题,可能大家不觉得这种段子有什么意义,但实际上弱智吧已经成为了AI大模型的试金石。2024年4月,中科院深圳先进技术研究院、中科院自动化研究所、北京大学、滑铁卢大学等机构联合发布的论文《COIG-CQIA:质量是中文指令微调最需要的》指出,使用弱智吧数据训练的AI大模型,在各类测试中均高于基于百科、知乎、豆瓣、小红书等平台数据训练的AI大模型。
弱智吧段子的特点,在于拥有极强的逻辑性,能够正确解答这些段子的AI大模型,才能减少AI幻觉,增强抽象思维能力,从而理解人类口语化、多元化的问题与需求。
AI幻觉仍然存在,重写知识库大可不必
以上三轮测试证明,AI幻觉依然存在,但并不多见,每一轮测试都只有少数AI大模型未能正确回答出问题,xAI开发的Grok 3则在三轮测试中均正确回答出了问题,表现尤为出色,而且面对AI幻觉,也有方法可以解决。
技术层面,AI企业通过多轮推理、复杂问题拆解并分步验证机制,对于问题进行多次验证,避免直接生成结论。外部知识融合机制,可主动检索外部知识库,验证信息的真实性,以避免因训练数据更新不及时,造成生成内容错漏。
(图源:豆包AI生成)
用户可以通过开启深度思考和联网搜索,以及增加限定词的方法,减少AI幻觉。开启深度思考后,AI大模型能够强化知识验证逻辑、细化推理链条,并引入不确定性评估,对问题进行多轮分析和验证,从源头减少产生AI幻觉的可能性,联网搜索则与外部知识库相连,便于及时获取最新信息,提高生成内容的准确性。
至于增加限定词,时间、地点、行业等特有名词,能够减少AI大模型的搜索范围,避免误判,也能起到减少AI幻觉的作用。
在AI企业的不断优化下,AI大模型产生幻觉的可能性越来越低。马斯克计划重写人类知识语料库,可能是精益求精,要训练出生成内容更准确的AI大模型,但该工程需要消耗不少资源,经过Grok 3.5(或Grok 4)重写后的知识语料库不见得一定客观公正。
在马斯克的推文下,曾创办过两家AI企业、写了六本书的行业领军人物Gary Marcus批评马斯克称,你无法让Grok与你的观点保持一致,所以你要改写历史,让它更符合你的观点。
(图源:X平台截图)
重写人类知识语料库,难免会掺入xAI的观点,影响到语料的客观性。而且训练AI大模型需要不断加入新的数据丰富语料库,若总是对数据进行重写,势必影响到Grok的开发进度。
通过加入新机制,对AI大模型生成的内容进行验证,是减少AI幻觉的最好方案,重写人类知识语料库在成本、效率、效果方面未必更有优势。
另一方面,清华大学相关团队发表的《DeepSeek与AI幻觉》中提到,AI幻觉在抽象创作、自动驾驶、科学研究等领域起到了关键作用。
David Baker团队利用AI“错误折叠”启发新型蛋白质结构,获得了2024诺贝尔化学奖,他的《通过深度网络幻觉进行从头蛋白质设计》论文,也详细阐述了AI幻觉的意义。保留一定的AI幻觉,对抽象创作和科学研究并非完全是坏事。