当前位置: 首页 » 资讯 » 新科技 » 正文

摩根大通开发AI幻觉"疫苗":让大语言模型不再胡说八道的神奇药方

IP属地 中国·北京 编辑:赵云飞 科技行者 时间:2025-09-02 22:13:03


这项由摩根大通AI研究部门的Nicole Cho、William Watson、Alec Koppel、Sumitra Ganesh和Manuela Veloso领导的研究发表于2025年8月22日,题为《QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting》,有兴趣深入了解的读者可以通过arXiv:2508.16697v1访问完整论文。

当你和ChatGPT或其他AI助手对话时,是否曾经遇到过这样的情况:你问一个数学题,它信心满满地给出答案,但仔细一看,计算过程完全错误?就像一个看似博学的朋友,总是一本正经地胡说八道。在AI界,这种现象有个专业名称叫"幻觉",但其实就是AI在不知道答案时瞎编乱造。

有趣的是,越聪明的AI模型似乎越爱"撒谎"。就像那些知识渊博但过于自信的人,反而容易在细节上出错。OpenAI在2025年初发布的技术报告显示,他们最新的推理模型o3和o4-mini竟然比之前的模型产生了更多幻觉,这让研究人员们相当头疼。

目前,大多数解决AI幻觉的方法就像是事后药——等AI说完话之后,再用另一套系统来检查它说的对不对,然后过滤掉明显错误的内容。这就好比你有个爱撒谎的朋友,你只能在他说完话后找别人核实,而不是从源头上让他说真话。摩根大通的研究团队想到了一个截然不同的思路:与其事后补救,不如从问问题的方式入手,让AI从一开始就不容易产生幻觉。

研究团队发现了一个有趣的现象:同样的问题用不同的方式提问,AI给出正确答案的概率会发生显著变化。就像同样一道菜谱,有些人按照原版做会失败,但稍微调整一下步骤或用词,成功率就大大提升。这启发他们开发了一个名为QueryBandits的智能系统,它能够自动分析每个问题的语言特征,然后选择最合适的改写策略,让AI更容易给出正确答案。

这个系统就像一个经验丰富的翻译官,不是简单地把话从一种语言转换成另一种语言,而是根据听众的特点调整表达方式。面对同样的信息,它会判断是该用简单直白的方式表达,还是需要加入更多背景信息,或者把复杂的长句拆分成几个短句。

研究结果相当令人惊喜。在对13个不同类型的问答数据集进行测试后,QueryBandits系统让AI的正确回答率提升了87.5%。更重要的是,它比简单的重新表述方法效果好了42.6%,比扩展问题内容的方法好了60.3%。这意味着,通过巧妙地改写问题,AI犯错的几率大大降低了。

一、问题改写的艺术:五种神奇的变身术

摩根大通的研究团队为AI准备了五种不同的"问题改写术",就像给同一道菜准备了五种不同的烹饪方法。每种方法都有自己的特色和适用场合。

第一种方法叫做"换个说法"。这就像用同样的意思但不同的词汇重新表述问题。比如把"你能解释一下机器学习的工作原理吗"改成"机器学习是如何运作的呢"。看似简单的词汇调换,却能让AI更好地理解问题的核心。研究人员发现,这种方法特别适合那些本身就比较清楚明确的问题,通过重新组织语言,能够避免AI在理解上的偏差。

第二种方法是"化繁为简"。当遇到那些句子结构复杂、包含多个从句的问题时,这种方法就派上用场了。它会把一个长句子拆分成几个简短的句子,去掉不必要的修饰词,让问题变得更加直接。就像把一道复杂的西餐简化成家常菜,保留核心营养,去掉繁琐的装饰。教育心理学早就证明,简单清晰的指令更容易被理解和执行,这个道理在AI身上同样适用。

第三种方法叫"消除歧义"。有些问题就像一张模糊的照片,AI看了半天也搞不清楚到底在问什么。这时候就需要把问题中那些模糊不清的部分明确化。比如"它是怎么工作的"这样的问题,就需要明确指出"它"具体指的是什么。这种方法特别擅长处理那些包含代词、时间表述不明确或者上下文关系复杂的问题。

第四种方法是"详细展开"。有些问题太过简洁,缺少必要的背景信息,AI就像一个刚到陌生城市的游客,不知道该往哪个方向走。这时候就需要为问题添加更多的上下文信息,明确相关的实体和属性。比如简单的"通胀率是多少"可以扩展为"2023年美国的年度通胀率是多少"。由于AI模型是基于注意力机制工作的,更丰富的语义信息能够帮助它更准确地定位答案。

第五种方法叫"术语解释"。当问题中包含专业术语或者罕见词汇时,这种方法会主动解释这些词汇的含义。这就像是为AI准备了一本随身字典,让它不会因为不理解某个专业词汇而偏离主题。由于AI模型在训练时对罕见词汇的接触有限,这些词汇的理解往往不够准确,主动解释能够显著提升回答的准确性。

研究团队发现,不同类型的问题适合不同的改写方法,没有一种万能的方法能够适用于所有情况。这就像烹饪一样,做汤需要一套方法,烧烤需要另一套方法,成功的关键在于根据具体情况选择合适的技巧。

二、语言的密码:十七个影响AI理解的关键特征

为了让系统能够自动判断每个问题适合哪种改写方法,研究团队深入分析了人类语言的复杂性,识别出了17个关键的语言特征。这些特征就像是解读语言密码的钥匙,每一个都能影响AI对问题的理解程度。

在结构特征方面,研究团队特别关注了"指代关系"和"句式复杂度"两个方面。指代关系就像语言中的"快捷键",比如"这个"、"那个"、"它"等代词。这些词汇在人类交流中很常见,但对AI来说却是理解的障碍,因为AI需要准确追踪这些代词指向的具体对象。句式复杂度则涉及句子中从句的数量和嵌套层次。就像俄罗斯套娃一样,句子里套句子,从句里还有从句,这种结构会让AI在解析时迷失方向。

场景相关的特征包括了三个重要方面。首先是"任务匹配度",指的是问题的表述方式是否与预期的答题方式相匹配。比如一个需要详细解释的开放性问题,却用了简单检索的提问方式,这种不匹配会让AI产生困惑。其次是"隐含假设",即问题中包含的未明说的假定条件。比如"谁是发明神经网络的音乐家"这个问题就假设确实存在这样一个人,但实际上这个假设可能是错误的。最后是"语用含义",指那些超越字面意思的表达,比如"你能递给我盐吗"实际上是一个请求而不是询问能力的问题。

词汇层面的特征同样重要。"词汇稀有度"指的是问题中是否包含了训练数据中很少出现的罕见词汇,这些词汇的理解往往不够准确。"否定表达"看似简单,但实际上会大大增加语言理解的复杂度,AI经常在处理否定句时出现理解偏差。"最高级表达"如"最好的"、"最大的"等词汇包含了隐含的比较关系,需要AI具备复杂的推理能力。"一词多义"则是指那些在不同语境下有不同含义的词汇,比如"银行"可能指金融机构也可能指河岸。

文体复杂性涉及问题的整体风格特征。"可回答性"评估问题是否存在明确的答案,有些问题本身就是无解的或者过于主观。"信息过载"指问题是否包含了过多的细节信息,这些信息可能会分散AI的注意力。"主观性"衡量问题是否需要个人观点或创造性思维,这类问题往往没有标准答案。"歧义性"则是指问题是否存在多种理解方式,让AI无法确定具体要回答什么。

语义基础特征关注问题的明确性和完整性。"目标明确性"评估问题的目的是否清晰表达,有些问题虽然语法正确但目标模糊。"约束条件"检查问题是否包含了时间、地点、条件等限制性信息,这些信息对于准确回答往往至关重要。"实体信息"关注问题中是否包含了可验证的具体实体,如人名、地名、机构名等。"专业领域"判断问题是否需要特定领域的专业知识才能理解和回答。

这17个特征的组合就像一个语言的指纹,每个问题都有自己独特的特征组合。研究团队发现,通过分析这些特征,系统能够准确判断每个问题最适合哪种改写方法,从而大大提升AI回答的准确性。

三、智能决策系统:如何选择最佳改写策略

QueryBandits系统的核心是一个智能决策机制,就像一个经验丰富的医生能够根据患者的症状选择最合适的治疗方案。这个系统采用了一种叫做"上下文多臂老虎机"的算法,听起来很复杂,但实际原理很像我们在日常生活中做决策的过程。

系统面临的挑战就像在一个有五个选项的餐厅里点菜,每个选项就是一种改写方法。但是这个餐厅很特殊:你不知道每道菜的味道如何,只能通过不断尝试来了解。更复杂的是,每道菜的好吃程度还会根据你当时的心情、饥饿程度等因素发生变化。在QueryBandits系统中,这些"因素"就是前面提到的17个语言特征。

系统的学习过程就像一个美食探索的旅程。刚开始时,系统对每种改写方法的效果一无所知,它需要在"探索新方法"和"利用已知最好方法"之间找到平衡。如果只是重复使用已知效果最好的方法,可能会错过在特定情况下更优秀的选择。如果一直尝试新方法,又可能浪费很多机会在效果不佳的选择上。

研究团队为系统设计了一个巧妙的奖励机制来评估每次改写的效果。这个机制就像一个公正的评委团,从三个不同角度给改写后的问题回答打分。第一个评委是一个基于GPT-4的智能判断系统,它专门负责评估答案的事实准确性,就像一个严格的事实核查员。第二个评委采用模糊匹配技术,检查答案与标准答案在用词上的相似度,类似于一个注重细节的语文老师。第三个评委使用BLEU评分方法,主要关注词汇层面的准确匹配,就像一个精确的翻译质量检查员。

为了确保这套评分系统的可靠性,研究团队进行了大量的验证工作。他们让人类专家对100个问题-答案对进行人工标注,然后测试他们的自动评分系统与人类判断的一致性。结果显示,通过合理调配三个评分维度的权重(分别设置为60%、30%和10%),自动评分系统能够很好地反映人类的判断标准。这个权重分配也揭示了一个重要发现:语义层面的准确性比表面的词汇匹配更为重要。

系统采用了多种不同的算法来处理决策过程,就像准备了多套应对不同情况的策略。对于那些能够清楚了解问题特征的情况,系统使用线性上下文算法,这些算法能够学习每个语言特征对不同改写方法效果的影响。其中表现最好的是汤普森采样算法,它采用了一种优雅的概率方法:为每种改写方法维护一个效果分布的估计,然后根据这个分布随机选择,既保证了对最佳方法的偏好,又留出了探索空间。

对于那些特征信息不明确的情况,系统还准备了非上下文的算法作为备选方案。这些算法不依赖具体的语言特征,而是通过纯粹的试错来学习每种方法的整体效果。虽然这些方法相对简单,但在某些特殊情况下仍然能够提供有价值的选择。

最有趣的是,系统还包含了对抗性算法来处理那些完全无法预测的情况。这些算法假设外部环境可能是恶意的或者完全随机的,因此采用了更加保守和稳健的策略。虽然这些情况在实际应用中不常遇到,但这种全面的准备体现了研究团队的严谨态度。

四、实战效果:数字说话的改进成果

为了验证QueryBandits系统的实际效果,研究团队进行了一场大规模的实验,就像组织了一次涵盖各个学科的综合考试。他们选择了13个不同类型的问答数据集,这些数据集就像不同难度和领域的考试科目,包括了维基百科问答、科学知识测试、数学问题、常识推理等各个方面。

整个实验的规模相当庞大,总共进行了超过25万次的问题改写和回答测试。为了确保测试的公平性和有效性,研究团队对每个数据集都精心挑选了大约1050个问题。这些问题不是随便选择的,而是经过特殊处理的版本:原始问题AI能够正确回答,但经过语义保持的词汇调整后,AI的回答准确率会下降。这种设计确保了测试能够真正反映改写策略的效果,而不是简单地依靠AI对标准问题的记忆。

这个实验设计解决了一个重要问题:如何避免AI"作弊"。研究团队发现,许多标准测试数据集在AI的训练过程中已经被"见过"了,AI可能只是在背答案而不是真正理解问题。就像学生考试时遇到了练习过的原题,这样的测试结果并不能真实反映理解能力。因此,他们使用了经过词汇调整但语义不变的问题版本,这样AI就不能依赖记忆,必须真正理解问题才能给出正确答案。

测试结果令人印象深刻。在所有测试中,QueryBandits系统的最佳版本(汤普森采样算法)实现了87.5%的胜率,也就是说,在大部分情况下,经过智能改写的问题能够让AI给出比原始问题更好的答案。更重要的是,这个系统显著超越了简单的静态改写方法:比标准的"换个说法"方法好了42.6%,比"扩展详述"方法好了60.3%。

有个特别有趣的发现是,一些看似简单的静态改写方法实际上会让情况变得更糟。研究结果显示,某些固定的改写策略产生的错误答案比完全不改写问题还要多。这就像用错误的调料做菜,不但没有提升味道,反而把原本还可以的菜品搞砸了。这个发现强调了智能选择改写策略的重要性,盲目地应用改写方法可能会适得其反。

实验还揭示了一个重要规律:不同类型的问题确实需要不同的改写策略。通过分析各个数据集上不同改写方法的表现,研究团队发现每个数据集都有自己的"最优组合"。有些数据集更适合简化表述,有些更适合消除歧义,还有些需要扩展背景信息。这种多样性证实了研究团队的假设:不存在一种万能的改写方法能够适用于所有情况。

系统的学习效率也相当令人满意。在大多数情况下,QueryBandits能够在相对较少的尝试次数内找到最优的改写策略,然后持续应用这个策略获得好的结果。这种快速收敛的特性对实际应用很重要,因为它意味着系统不需要大量的"学费"就能掌握有效的策略。

更值得注意的是,带有语言特征分析的上下文版本明显优于不考虑特征的简单版本。当研究团队移除了17维的语言特征输入后,汤普森采样算法的表现下降了5.8个百分点,这清楚地证明了语言特征分析对于选择合适改写策略的重要性。就像一个经验丰富的医生需要了解患者的各种症状才能开出正确的处方,智能改写系统也需要详细分析语言特征才能选择最佳策略。

五、语言特征的奥秘:什么样的问题需要什么样的改写

通过深入分析大量的测试数据,研究团队发现了语言特征与改写策略之间的有趣关系,就像发现了烹饪中食材与调料的最佳搭配规律。这些发现不仅验证了他们的理论假设,也为未来的改进提供了明确的方向。

当问题包含复杂的句子结构,特别是多层嵌套的从句时,"消除歧义"策略表现得特别出色。这种情况就像解开一个复杂的绳结,需要先厘清各个部分的关系,然后逐一处理。研究数据显示,对于这类结构复杂的问题,消除歧义策略的效果最好,而简化策略反而可能会丢失重要信息。

相反,当问题中包含明显的语用信息时,比如礼貌用语或者间接表达时,"简化策略"就显得特别有用。这些语用标记就像路标,能够指导系统安全地删除不必要的修饰成分而保留核心意思。但是当问题中包含最高级表达时,简化策略就要格外小心了,因为"最好的"、"最大的"这类词汇包含了重要的比较信息,删除它们会根本改变问题的意思。

"扩展详述"策略在面对那些已经包含丰富约束条件的问题时表现最佳。这种现象很有意思:越是信息丰富的问题,越容易通过添加更多细节来提升效果。这就像在一个详细的地图上再添加一些路标,能够让导航更加精确。但是面对那些本身就很模糊的问题,扩展策略反而可能增加混乱,就像在一张空白纸上随意添加信息,可能会误导方向。

"换个说法"策略对于那些本身就具有良好可答性的问题效果最好。这类问题的结构和内容都比较合理,只是在表达方式上可能存在一些小问题。通过调整用词和句式,能够让AI更好地理解问题的意图。但是对于那些包含强烈预设假定的问题,简单的重新表述可能会无意中强化错误的假设,导致答案偏离正确方向。

"术语解释"策略在处理包含罕见词汇的问题时发挥了重要作用。这种策略的效果就像为AI准备了一本专业词典,让它不会因为不理解某个专业术语而产生困惑。研究发现,这种策略特别适合那些涉及特定专业领域的问题,比如法律、医学、工程技术等领域的专业问题。但是当问题本身的句子结构就很复杂时,再添加术语解释可能会进一步增加理解难度。

通过分析不同特征对各种策略的影响程度,研究团队还发现了一些意想不到的规律。比如,包含实体信息的问题通常更容易被正确处理,无论使用哪种改写策略。这可能是因为具体的实体为AI提供了明确的锚点,让它能够更好地定位相关信息。

另一个有趣的发现是,问题的主观性程度与改写效果之间存在复杂的关系。对于客观性较强的问题,大多数改写策略都能带来积极效果。但是对于主观性较强的问题,改写的效果就变得不太稳定,有时甚至会产生负面影响。这提醒我们,AI在处理主观性问题时仍然存在根本性的局限。

研究还发现,不同语言特征之间存在相互作用的效应。某些特征的组合会产生协同效应,让特定的改写策略变得特别有效。而另一些特征的组合则会产生冲突,让所有改写策略的效果都不理想。这种复杂的相互作用提示未来的研究需要考虑更高阶的特征组合,而不仅仅是单个特征的独立效应。

六、技术突破的意义:重新定义AI交互方式

QueryBandits系统的成功不仅仅是一项技术改进,更代表了我们与AI交互方式的根本性转变。传统上,当AI给出错误答案时,我们的解决思路主要集中在两个方向:要么改进AI模型本身,要么在AI输出后进行过滤和修正。但这项研究开辟了第三条道路:通过优化输入来改善输出。

这种思路转变的意义就像从"治病"转向"预防"。以往我们总是等AI犯错后再想办法补救,就像等人生病了再治疗。而QueryBandits的方法更像是通过改善饮食和生活习惯来预防疾病的发生。这种预防性方法不仅更加高效,而且从根本上减少了问题的发生。

从实用角度来看,这项技术的优势非常明显。它不需要重新训练庞大的AI模型,也不需要复杂的后处理系统,只需要在输入阶段进行智能调整就能显著改善效果。这就像给现有的引擎安装了一个智能调优器,不需要更换整个引擎就能提升性能。对于那些需要快速部署或者计算资源受限的应用场景,这种方法特别有价值。

更重要的是,这项研究为我们理解AI的工作机制提供了新的视角。通过分析哪些语言特征影响AI的表现,以及不同的问题表述方式如何影响答案质量,我们对AI的"思维过程"有了更深入的了解。这种理解不仅有助于设计更好的AI系统,也为人机交互的优化提供了科学依据。

研究还揭示了一个重要的哲学问题:什么是"正确的"问问题方式?传统上,我们认为只要问题的意思清楚,表达方式就不那么重要。但这项研究表明,在与AI交互时,问题的表达方式可能比我们想象的更加重要。不同的表述方式不仅会影响AI对问题的理解,还会影响它搜索和整合信息的方式。

从更广泛的应用前景来看,QueryBandits的核心思想可以扩展到许多其他领域。比如在教育场景中,系统可以根据学生的知识背景和学习特点自动调整问题的表述方式,让学生更容易理解和回答。在客户服务中,系统可以根据客户的历史记录和当前情况调整问答的方式,提供更加个性化的服务。

这项技术也为解决AI的可解释性问题提供了新思路。通过分析系统选择特定改写策略的原因,我们可以更好地理解AI在处理不同类型问题时的优势和局限。这种理解对于建立人们对AI系统的信任,以及在关键应用中合理使用AI都具有重要意义。

然而,这项研究也提醒我们注意一些潜在的风险。如果过度依赖问题改写来改善AI表现,可能会掩盖AI模型本身的一些根本性问题。就像过度依赖化妆品来改善外表,虽然短期效果明显,但可能会忽略内在健康的重要性。因此,问题改写应该被视为AI系统改进的补充手段,而不是替代方案。

七、局限性与未来发展方向

尽管QueryBandits系统取得了令人瞩目的成果,但研究团队也坦诚地指出了当前方法的一些局限性。就像任何创新技术一样,这个系统也不是万能的解决方案,还有许多需要改进和完善的地方。

当前系统的一个主要局限在于它将17个语言特征视为相互独立的因素,但实际上这些特征之间可能存在复杂的交互关系。就像烹饪中不同调料的组合会产生意想不到的化学反应一样,语言特征的组合也可能产生协同或冲突效应。比如,当一个问题同时具有高度专业性和结构复杂性时,最佳的改写策略可能与单独处理这两个特征时完全不同。

另一个需要谨慎对待的问题是因果关系的确定。虽然系统能够识别出某些语言特征与改写效果之间的关联,但这种关联不一定代表因果关系。就像发现雨伞销量与交通事故率的关联不能说明雨伞导致了交通事故一样,语言特征与改写效果的关联也需要更深入的分析才能确定真正的因果机制。这种因果关系的模糊性在AI系统的内部机制本身就难以解释的情况下变得更加复杂。

系统目前使用的奖励机制虽然经过了精心设计和验证,但仍然依赖于AI系统本身的判断。这就像让一个可能存在偏见的评委来评判比赛,评判结果可能会反映评委的偏见而不是真实的质量。虽然研究团队通过人工标注进行了验证,但这种验证的规模相对有限,在更大规模的应用中可能会暴露出一些问题。

从技术发展的角度来看,未来的改进方向有很多令人兴奋的可能性。首先是考虑特征之间的高阶交互关系。通过引入多项式特征交互或者更复杂的特征工程,系统可能能够捕捉到当前方法忽略的一些重要模式。这就像从线性思维转向多维思维,能够处理更加复杂和微妙的语言现象。

其次是扩展到更多样化的改写策略。目前的五种改写方法虽然覆盖了主要的情况,但语言的丰富性远不止于此。未来可能可以开发出更加细致和专门化的改写策略,比如针对不同文化背景、不同专业领域或者不同交互目的的专门策略。

在因果推理方面,未来的研究可能会引入更加严格的因果分析方法,帮助我们真正理解哪些语言特征是改善AI表现的关键因素,哪些只是相关的副产品。这种深层次的理解对于设计更加有效和可靠的改写策略至关重要。

另一个有前景的方向是个性化适配。不同的用户可能有不同的表达习惯和思维方式,同样的问题对不同用户的最佳改写方式可能也不相同。未来的系统可能能够学习每个用户的特点,提供更加个性化的改写服务。

在应用扩展方面,QueryBandits的核心思想可能会被应用到更多的场景中。比如在多轮对话中,系统不仅需要改写当前的问题,还需要考虑对话的历史背景和未来发展方向。在多模态交互中,系统可能需要同时考虑文本、图像、语音等多种输入方式的特点。

说到底,QueryBandits代表的是一种全新的思考方式:与其被动地接受AI的局限性,不如主动地优化我们与AI的交互方式。这种思路不仅在技术上有价值,在哲学上也很有意义。它提醒我们,人机交互是一个双向的过程,改善这个过程需要人类和AI的共同努力。

这项来自摩根大通AI研究部门的工作为我们展示了一个令人兴奋的可能性:通过巧妙的问题改写,我们可以显著提升AI的表现,减少幻觉的发生。虽然这个方法还不够完美,但它开启了一个新的研究方向,为建设更加可靠和有用的AI系统提供了宝贵的思路。随着技术的不断发展和完善,我们有理由相信,未来的AI交互会变得更加智能、更加可靠,也更加人性化。

Q&A

Q1:QueryBandits系统是什么?它是如何减少AI幻觉的?

A:QueryBandits是摩根大通开发的一个智能问题改写系统。它的工作原理是分析每个问题的语言特征,然后选择最合适的改写方法来重新表述问题,让AI更容易给出正确答案。系统有五种改写策略:换个说法、化繁为简、消除歧义、详细展开和术语解释,通过智能选择这些策略,可以将AI的正确回答率提升87.5%。

Q2:为什么改写问题能够减少AI的错误回答?

A:同样的问题用不同方式表达,AI给出正确答案的概率会发生显著变化。这是因为AI对问题的理解会受到词汇选择、句子结构、表达方式等因素影响。就像同一道菜谱,有些人按原版做会失败,但调整步骤后成功率大增。QueryBandits通过分析17个语言特征来判断问题的"弱点",然后针对性地改写,避免AI在理解上的偏差。

Q3:普通用户能否使用QueryBandits技术来改善与AI的交互?

A:目前QueryBandits还是一个研究阶段的技术,普通用户无法直接使用。但研究结果为我们提供了有用的启示:与AI交流时可以注意问题的表达方式,比如将复杂长句拆分成简短句子、明确指出代词的具体指向、为专业术语添加解释等。这些简单的调整往往能让AI给出更准确的答案。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。