当前位置: 首页 » 资讯 » 新科技 » 正文

J.P.Morgan研究院发现:让AI少出错的秘密藏在问题的说话方式里

IP属地 中国·北京 科技行者 时间:2026-03-01 00:17:16


这项由J.P.Morgan人工智能研究院主导的研究发表于2026年2月的arXiv预印本平台,论文编号为2602.20300v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当你向ChatGPT或其他AI助手提问时,是否发现有时它会给出看似合理但实际错误的答案?这种现象被称为"幻觉",就像AI在做白日梦一样编造信息。J.P.Morgan的研究团队决定从一个全新角度解决这个问题:既然我们无法完全阻止AI犯错,那能否通过改变提问方式来降低出错概率呢?

研究团队花费大量时间分析了将近37万个真实用户提问,这些问题涵盖了13个不同的问答数据集。他们的发现颠覆了许多人的认知:原来问题本身的"说话方式"会显著影响AI的可靠性。这就像同一道数学题,用不同方式提问可能得到截然不同的答案质量。

传统上,人们认为AI出现幻觉主要是模型本身的缺陷,或者解码策略有问题。但这项研究证明,问题的表达方式同样重要。研究团队从经典语言学理论中汲取灵感,提出了一个大胆的观点:听者(包括AI模型)的回应很大程度上会受到问题形式的影响。

研究团队开发了一套包含17个维度的问题特征分析系统,就像给每个问题做了一次全面的"语言体检"。这套系统能够识别问题中的各种语言特征,比如句子结构复杂程度、词汇稀有度、是否包含代词指代、是否使用否定句、问题的可回答性以及意图明确程度等等。

一、问题的"风险地貌":哪些说话方式让AI更容易犯错

通过对海量数据的分析,研究团队绘制出了一幅详细的"风险地貌图"。这张图清晰地显示了不同类型的问题表达方式与AI出错概率之间的关系,就像天气预报图一样直观。

研究发现,某些语言特征确实会显著增加AI产生幻觉的风险。首先是"缺乏具体性"的问题,这类问题就像在茫茫大海中没有灯塔指引。当你问"告诉我关于特斯拉的信息"时,AI可能不知道你指的是公司、汽车、股票还是那位发明家本人,这种模糊性会让AI更容易编造信息。相反,如果你问"总结特斯拉公司2024年第四季度财报的五个要点",问题就变得具体明确,AI出错的可能性会大大降低。

句子结构复杂性是另一个重要风险因素。复杂的从句嵌套就像俄罗斯套娃一样,层层包裹让AI难以准确理解真正的询问重点。比如"如果试验成功的话,根据那份泄露的备忘录,哪些监管机构会首先批准它"这样的问题,包含了多个条件和修饰成分,增加了AI理解错误的可能性。

否定句的使用也会提高风险。人类大脑处理否定信息本身就需要额外的认知资源,AI同样如此。当问题中包含"不是"、"没有"、"并非"等否定词时,AI更容易在逻辑推理中出现偏差。

令人意外的是,一些传统上被认为会困扰人类理解的语言特征,对AI的影响却相对较小。比如罕见词汇、最高级表达、复杂否定等,虽然可能让人类读者感到困惑,但AI似乎能够较好地处理这些情况。这表明人类和AI的"困难点"并不完全相同。

二、什么样的问题让AI更可靠

研究同时揭示了哪些问题特征能够降低AI出错的风险。意图明确的问题就像给AI一张清晰的地图,让它知道确切的目标在哪里。当你在问题中明确使用"总结"、"比较"、"提取"、"分类"等动词时,AI就能更准确地理解你的需求。

可回答性是另一个关键的保护因素。那些基于现有信息能够给出明确答案的问题,比如"《路》这本书的作者是谁"或"17×19等于多少",AI几乎不会出错。相反,那些需要主观判断或预测未来的问题,比如"我应该搬到纽约吗"或"X股票下个月会崩盘吗",AI更容易产生不可靠的回答。

有趣的是,研究还发现句子长度和结构复杂性之间存在微妙的平衡关系。适度的长度和结构复杂性实际上能够提供更多上下文信息,帮助AI更好地理解问题。这就像烹饪时的调料,太少缺乏味道,太多则会掩盖本味,适量使用才能达到最佳效果。

三、不同任务类型的风险模式

研究团队分析了三种不同的任务类型,发现它们展现出截然不同的风险模式。提取式任务就像从文章中找特定信息,由于有明确的参考材料,AI很少出现幻觉。大多数这类问题都被归类为"安全"级别。

选择题任务介于中等风险水平。这类任务的特点是有干扰选项的存在,AI需要在多个备选答案中做出选择。虽然有一定的约束性,但干扰项的存在确实会增加AI犯错的可能性。

抽象式任务的风险最高,这类任务缺乏外部参考材料,完全依赖AI的内部知识储备。当被要求总结、分析或创造性回答时,AI更容易"天马行空",产生看似合理但实际错误的内容。研究显示,这类任务中有44.5%被标记为"高风险"。

更有趣的是,研究发现问题长度与风险之间存在依赖于任务类型的关系。在抽象式任务中,问题越长,AI出错的概率越高,这种关系呈现出明显的上升趋势。而在提取式任务中,问题长度对风险的影响微乎其微,风险水平始终保持在较低水平。

四、语言特征的相互关系网络

通过深入分析,研究团队发现这17个语言特征并非独立存在,而是形成了复杂的相互关系网络。这些特征可以大致分为几个主要群组,每个群组内的特征往往同时出现,共同影响AI的表现。

语法复杂性群组包括问题长度、依赖深度、解析树高度和从句数量等特征。这些特征高度相关,形成了一个紧密的特征集合。有趣的是,这个群组与AI幻觉风险呈现负相关关系,这意味着适度的语法复杂性实际上能提供更丰富的上下文信息,帮助AI更好地理解问题。

语义基础群组包括意图明确性、可回答性和上下文约束等特征。这个群组与较低的幻觉风险密切相关,证实了语义清晰性对AI可靠性的重要作用。

模糊性群组包括缺乏具体性、问题场景不匹配、多义词和语用特征等。这个群组中的特征经常一起出现,共同增加AI产生幻觉的风险。

五、实用的问题优化策略

基于这些发现,研究团队提出了三个简单但有效的问题优化原则。第一个原则是增加消歧约束,具体来说就是在问题中明确时间、地点和实体信息。与其问"告诉我关于Java的信息",不如问"解释Java编程语言的主要特性"。

第二个原则是明确表达意图。在问题中使用明确的动词,比如"总结"、"比较"、"提取"、"验证"等,让AI知道你期望什么样的回答形式。这就像给厨师一份详细的菜谱,而不是简单说"做点好吃的"。

第三个原则是预先解决多义性问题。当问题中包含可能有多重含义的词汇时,要提前进行澄清。比如问"比较Python和Java在Web开发中的优劣",而不是简单问"Python和Java哪个更好"。

这些策略的应用效果在研究中得到了验证。通过对高风险问题进行重写优化,可以显著降低AI产生幻觉的概率。重要的是,这些优化策略不需要修改AI模型本身,只需要用户在提问时稍加注意即可。

六、跨数据集的稳定性验证

为了确保研究结果的可靠性,研究团队采用了"留一数据集"的交叉验证方法。这种方法就像轮流让每个数据集"坐冷板凳",用其余数据集训练模型,然后测试在"坐冷板凳"的数据集上的表现。

验证结果令人鼓舞:所有主要发现在不同数据集上都保持了一致性。缺乏具体性、句子复杂性和问题场景不匹配始终与较高的幻觉风险相关,而可回答性和意图明确性始终起到保护作用。这种跨数据集的稳定性表明,研究发现的"风险地貌"具有普遍适用性,而不仅仅是特定数据集的偶然现象。

特别值得注意的是,即使在不同的应用领域和问题类型中,这些语言特征与AI可靠性之间的关系依然保持稳定。这为制定通用的问题优化指南提供了坚实的基础。

七、模型校准和预测能力

研究团队还验证了他们开发的风险预测模型的准确性。通过可靠性曲线分析,他们发现模型能够很好地校准风险预测,也就是说,当模型预测某个问题有70%的风险时,实际风险确实接近70%。

这种校准能力使得风险预测系统具有实用价值。用户或系统可以在AI回答问题之前,先评估问题的风险等级,对于高风险问题采取额外的验证措施,或者引导用户重新表述问题。

模型的预测能力在不同特征层次上都表现出色。无论是针对单个特征的影响,还是多个特征的组合效应,模型都能提供可靠的风险评估。这为开发实时的问题质量检测工具奠定了基础。

八、领域特异性的有趣发现

研究中一个令人意外的发现是领域特异性特征的表现。传统观点认为,专业领域的问题会增加AI出错的风险,因为这些问题需要专业知识。然而,研究结果显示,领域特异性与幻觉风险之间的关系是混合的,很大程度上取决于AI模型对特定领域的熟悉程度。

在AI训练数据中常见的领域,比如计算机科学和数学,专业性问题的风险相对较低。而在训练数据中较少涉及的领域,专业性问题确实会增加风险。这一发现提醒我们,AI的可靠性不仅取决于问题的表达方式,也与其知识储备的深度和广度密切相关。

这个发现对实际应用具有重要意义。在使用AI处理专业领域问题时,用户需要特别注意该领域是否在AI的"舒适区"内,并相应调整对答案可靠性的期望。

九、未来应用前景

这项研究的成果已经为开发更智能的AI交互系统铺平了道路。研究团队设想的应用场景包括实时问题风险评估、自动问题重写建议和智能问题路由等功能。

实时风险评估功能就像一个智能的"问题顾问",在用户提交问题之前就能预测AI回答的可靠性。对于高风险问题,系统可以提醒用户需要额外验证,或者建议使用其他信息源进行交叉验证。

自动问题重写功能更进一步,它不仅能识别风险,还能主动建议更好的表达方式。比如,当用户输入模糊的问题时,系统可以建议几种更具体、更明确的表达方式供用户选择。

智能问题路由功能可以根据问题的特征和风险等级,将其分配给最适合的处理方式。低风险问题可以直接交给AI处理,中等风险问题可能需要检索增强,而高风险问题可能需要人工审核或者引导用户提供更多上下文信息。

说到底,这项研究揭示了一个简单而深刻的道理:与AI对话的艺术不仅仅在于拥有正确的信息,更在于用正确的方式提出问题。就像与人交流一样,清晰、具体、有目的的表达总是能获得更好的回应。随着AI技术的不断发展,掌握这种"提问的艺术"将成为每个人都需要学习的重要技能。这项研究不仅为我们理解AI的工作机制提供了新视角,更为我们在AI时代的有效沟通提供了实用指南。通过简单地改变我们的提问方式,我们就能显著提高AI助手的可靠性,让人机协作变得更加高效和可信。研究团队的工作证明,有时候解决复杂技术问题的钥匙,竟然就藏在我们日常语言使用的细节之中。

Q&A

Q1:什么语言特征会让AI更容易产生错误回答?

A:主要有三类风险特征。首先是缺乏具体性,比如问"告诉我关于特斯拉的信息"而不明确指公司、汽车还是发明家。其次是复杂的句子结构,包含多层嵌套从句会让AI难以理解重点。第三是使用否定句,"不是"、"没有"等否定词会增加AI逻辑推理出错的可能性。

Q2:如何通过改变提问方式来提高AI回答的准确性?

A:有三个简单有效的原则。首先是增加具体约束,明确时间、地点、实体信息,比如问"总结特斯拉公司2024年第四季度财报要点"而不是泛泛询问。其次是明确表达意图,使用"总结"、"比较"、"提取"等明确动词。最后是预先解决多义性,当词汇可能有多重含义时要提前澄清。

Q3:不同类型的AI任务哪种最容易出错?

A:抽象式任务风险最高,有44.5%被标记为高风险,因为缺乏外部参考材料,完全依赖AI内部知识。提取式任务风险最低,因为有明确参考材料支撑。选择题任务介于中等风险水平,虽有约束但干扰选项会增加出错可能。问题长度在抽象式任务中会显著增加风险,而在提取式任务中影响很小。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。