当前位置：首页 » 资讯 » 新科技 » 正文

J.P.Morgan研究院发现：让AI少出错的秘密藏在问题的说话方式里

IP属地中国·北京 科技行者 时间：2026-03-01 00:17:16

这项由J.P.Morgan人工智能研究院主导的研究发表于2026年2月的arXiv预印本平台，论文编号为2602.20300v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。
当你向ChatGPT或其他AI助手提问时，是否发现有时它会给出看似合理但实际错误的答案？这种现象被称为"幻觉"，就像AI在做白日梦一样编造信息。J.P.Morgan的研究团队决定从一个全新角度解决这个问题：既然我们无法完全阻止AI犯错，那能否通过改变提问方式来降低出错概率呢？
研究团队花费大量时间分析了将近37万个真实用户提问，这些问题涵盖了13个不同的问答数据集。他们的发现颠覆了许多人的认知：原来问题本身的"说话方式"会显著影响AI的可靠性。这就像同一道数学题，用不同方式提问可能得到截然不同的答案质量。
传统上，人们认为AI出现幻觉主要是模型本身的缺陷，或者解码策略有问题。但这项研究证明，问题的表达方式同样重要。研究团队从经典语言学理论中汲取灵感，提出了一个大胆的观点：听者（包括AI模型）的回应很大程度上会受到问题形式的影响。
研究团队开发了一套包含17个维度的问题特征分析系统，就像给每个问题做了一次全面的"语言体检"。这套系统能够识别问题中的各种语言特征，比如句子结构复杂程度、词汇稀有度、是否包含代词指代、是否使用否定句、问题的可回答性以及意图明确程度等等。
一、问题的"风险地貌"：哪些说话方式让AI更容易犯错
通过对海量数据的分析，研究团队绘制出了一幅详细的"风险地貌图"。这张图清晰地显示了不同类型的问题表达方式与AI出错概率之间的关系，就像天气预报图一样直观。
研究发现，某些语言特征确实会显著增加AI产生幻觉的风险。首先是"缺乏具体性"的问题，这类问题就像在茫茫大海中没有灯塔指引。当你问"告诉我关于特斯拉的信息"时，AI可能不知道你指的是公司、汽车、股票还是那位发明家本人，这种模糊性会让AI更容易编造信息。相反，如果你问"总结特斯拉公司2024年第四季度财报的五个要点"，问题就变得具体明确，AI出错的可能性会大大降低。
句子结构复杂性是另一个重要风险因素。复杂的从句嵌套就像俄罗斯套娃一样，层层包裹让AI难以准确理解真正的询问重点。比如"如果试验成功的话，根据那份泄露的备忘录，哪些监管机构会首先批准它"这样的问题，包含了多个条件和修饰成分，增加了AI理解错误的可能性。
否定句的使用也会提高风险。人类大脑处理否定信息本身就需要额外的认知资源，AI同样如此。当问题中包含"不是"、"没有"、"并非"等否定词时，AI更容易在逻辑推理中出现偏差。
令人意外的是，一些传统上被认为会困扰人类理解的语言特征，对AI的影响却相对较小。比如罕见词汇、最高级表达、复杂否定等，虽然可能让人类读者感到困惑，但AI似乎能够较好地处理这些情况。这表明人类和AI的"困难点"并不完全相同。
二、什么样的问题让AI更可靠
研究同时揭示了哪些问题特征能够降低AI出错的风险。意图明确的问题就像给AI一张清晰的地图，让它知道确切的目标在哪里。当你在问题中明确使用"总结"、"比较"、"提取"、"分类"等动词时，AI就能更准确地理解你的需求。
可回答性是另一个关键的保护因素。那些基于现有信息能够给出明确答案的问题，比如"《路》这本书的作者是谁"或"17×19等于多少"，AI几乎不会出错。相反，那些需要主观判断或预测未来的问题，比如"我应该搬到纽约吗"或"X股票下个月会崩盘吗"，AI更容易产生不可靠的回答。
有趣的是，研究还发现句子长度和结构复杂性之间存在微妙的平衡关系。适度的长度和结构复杂性实际上能够提供更多上下文信息，帮助AI更好地理解问题。这就像烹饪时的调料，太少缺乏味道，太多则会掩盖本味，适量使用才能达到最佳效果。
三、不同任务类型的风险模式
研究团队分析了三种不同的任务类型，发现它们展现出截然不同的风险模式。提取式任务就像从文章中找特定信息，由于有明确的参考材料，AI很少出现幻觉。大多数这类问题都被归类为"安全"级别。
选择题任务介于中等风险水平。这类任务的特点是有干扰选项的存在，AI需要在多个备选答案中做出选择。虽然有一定的约束性，但干扰项的存在确实会增加AI犯错的可能性。
抽象式任务的风险最高，这类任务缺乏外部参考材料，完全依赖AI的内部知识储备。当被要求总结、分析或创造性回答时，AI更容易"天马行空"，产生看似合理但实际错误的内容。研究显示，这类任务中有44.5%被标记为"高风险"。
更有趣的是，研究发现问题长度与风险之间存在依赖于任务类型的关系。在抽象式任务中，问题越长，AI出错的概率越高，这种关系呈现出明显的上升趋势。而在提取式任务中，问题长度对风险的影响微乎其微，风险水平始终保持在较低水平。
四、语言特征的相互关系网络
通过深入分析，研究团队发现这17个语言特征并非独立存在，而是形成了复杂的相互关系网络。这些特征可以大致分为几个主要群组，每个群组内的特征往往同时出现，共同影响AI的表现。
语法复杂性群组包括问题长度、依赖深度、解析树高度和从句数量等特征。这些特征高度相关，形成了一个紧密的特征集合。有趣的是，这个群组与AI幻觉风险呈现负相关关系，这意味着适度的语法复杂性实际上能提供更丰富的上下文信息，帮助AI更好地理解问题。
语义基础群组包括意图明确性、可回答性和上下文约束等特征。这个群组与较低的幻觉风险密切相关，证实了语义清晰性对AI可靠性的重要作用。
模糊性群组包括缺乏具体性、问题场景不匹配、多义词和语用特征等。这个群组中的特征经常一起出现，共同增加AI产生幻觉的风险。
五、实用的问题优化策略
基于这些发现，研究团队提出了三个简单但有效的问题优化原则。第一个原则是增加消歧约束，具体来说就是在问题中明确时间、地点和实体信息。与其问"告诉我关于Java的信息"，不如问"解释Java编程语言的主要特性"。
第二个原则是明确表达意图。在问题中使用明确的动词，比如"总结"、"比较"、"提取"、"验证"等，让AI知道你期望什么样的回答形式。这就像给厨师一份详细的菜谱，而不是简单说"做点好吃的"。
第三个原则是预先解决多义性问题。当问题中包含可能有多重含义的词汇时，要提前进行澄清。比如问"比较Python和Java在Web开发中的优劣"，而不是简单问"Python和Java哪个更好"。
这些策略的应用效果在研究中得到了验证。通过对高风险问题进行重写优化，可以显著降低AI产生幻觉的概率。重要的是，这些优化策略不需要修改AI模型本身，只需要用户在提问时稍加注意即可。
六、跨数据集的稳定性验证
为了确保研究结果的可靠性，研究团队采用了"留一数据集"的交叉验证方法。这种方法就像轮流让每个数据集"坐冷板凳"，用其余数据集训练模型，然后测试在"坐冷板凳"的数据集上的表现。
验证结果令人鼓舞：所有主要发现在不同数据集上都保持了一致性。缺乏具体性、句子复杂性和问题场景不匹配始终与较高的幻觉风险相关，而可回答性和意图明确性始终起到保护作用。这种跨数据集的稳定性表明，研究发现的"风险地貌"具有普遍适用性，而不仅仅是特定数据集的偶然现象。
特别值得注意的是，即使在不同的应用领域和问题类型中，这些语言特征与AI可靠性之间的关系依然保持稳定。这为制定通用的问题优化指南提供了坚实的基础。
七、模型校准和预测能力
研究团队还验证了他们开发的风险预测模型的准确性。通过可靠性曲线分析，他们发现模型能够很好地校准风险预测，也就是说，当模型预测某个问题有70%的风险时，实际风险确实接近70%。
这种校准能力使得风险预测系统具有实用价值。用户或系统可以在AI回答问题之前，先评估问题的风险等级，对于高风险问题采取额外的验证措施，或者引导用户重新表述问题。
模型的预测能力在不同特征层次上都表现出色。无论是针对单个特征的影响，还是多个特征的组合效应，模型都能提供可靠的风险评估。这为开发实时的问题质量检测工具奠定了基础。
八、领域特异性的有趣发现
研究中一个令人意外的发现是领域特异性特征的表现。传统观点认为，专业领域的问题会增加AI出错的风险，因为这些问题需要专业知识。然而，研究结果显示，领域特异性与幻觉风险之间的关系是混合的，很大程度上取决于AI模型对特定领域的熟悉程度。
在AI训练数据中常见的领域，比如计算机科学和数学，专业性问题的风险相对较低。而在训练数据中较少涉及的领域，专业性问题确实会增加风险。这一发现提醒我们，AI的可靠性不仅取决于问题的表达方式，也与其知识储备的深度和广度密切相关。
这个发现对实际应用具有重要意义。在使用AI处理专业领域问题时，用户需要特别注意该领域是否在AI的"舒适区"内，并相应调整对答案可靠性的期望。
九、未来应用前景
这项研究的成果已经为开发更智能的AI交互系统铺平了道路。研究团队设想的应用场景包括实时问题风险评估、自动问题重写建议和智能问题路由等功能。
实时风险评估功能就像一个智能的"问题顾问"，在用户提交问题之前就能预测AI回答的可靠性。对于高风险问题，系统可以提醒用户需要额外验证，或者建议使用其他信息源进行交叉验证。
自动问题重写功能更进一步，它不仅能识别风险，还能主动建议更好的表达方式。比如，当用户输入模糊的问题时，系统可以建议几种更具体、更明确的表达方式供用户选择。
智能问题路由功能可以根据问题的特征和风险等级，将其分配给最适合的处理方式。低风险问题可以直接交给AI处理，中等风险问题可能需要检索增强，而高风险问题可能需要人工审核或者引导用户提供更多上下文信息。
说到底，这项研究揭示了一个简单而深刻的道理：与AI对话的艺术不仅仅在于拥有正确的信息，更在于用正确的方式提出问题。就像与人交流一样，清晰、具体、有目的的表达总是能获得更好的回应。随着AI技术的不断发展，掌握这种"提问的艺术"将成为每个人都需要学习的重要技能。这项研究不仅为我们理解AI的工作机制提供了新视角，更为我们在AI时代的有效沟通提供了实用指南。通过简单地改变我们的提问方式，我们就能显著提高AI助手的可靠性，让人机协作变得更加高效和可信。研究团队的工作证明，有时候解决复杂技术问题的钥匙，竟然就藏在我们日常语言使用的细节之中。
Q&A
Q1：什么语言特征会让AI更容易产生错误回答？
A：主要有三类风险特征。首先是缺乏具体性，比如问"告诉我关于特斯拉的信息"而不明确指公司、汽车还是发明家。其次是复杂的句子结构，包含多层嵌套从句会让AI难以理解重点。第三是使用否定句，"不是"、"没有"等否定词会增加AI逻辑推理出错的可能性。
Q2：如何通过改变提问方式来提高AI回答的准确性？
A：有三个简单有效的原则。首先是增加具体约束，明确时间、地点、实体信息，比如问"总结特斯拉公司2024年第四季度财报要点"而不是泛泛询问。其次是明确表达意图，使用"总结"、"比较"、"提取"等明确动词。最后是预先解决多义性，当词汇可能有多重含义时要提前澄清。
Q3：不同类型的AI任务哪种最容易出错？
A：抽象式任务风险最高，有44.5%被标记为高风险，因为缺乏外部参考材料，完全依赖AI内部知识。提取式任务风险最低，因为有明确参考材料支撑。选择题任务介于中等风险水平，虽有约束但干扰选项会增加出错可能。问题长度在抽象式任务中会显著增加风险，而在提取式任务中影响很小。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

OpenAI宣布完成新一轮融资总额1100亿美元

太赫兹创新联盟在复旦成立！赋能未来产业新赛道

小米Tag海外发布：仅重10克，兼容谷歌、苹果查找网络

仁宝AI Book概念本：C面掌托竟配大尺寸墨水屏！

专访图灵量子创始人金贤敏：量子计算近两年将迎爆发窗口

苹果公司首创三模态AI模型：让机器同时理解文字、图片和声音

全站最新

OpenAI宣布完成新一轮融资总额1100亿美元

太赫兹创新联盟在复旦成立！赋能未来产业新赛道

小米Tag海外发布：仅重10克，兼容谷歌、苹果查找网络

仁宝AI Book概念本：C面掌托竟配大尺寸墨水屏！

热门推荐

OpenAI宣布完成新一轮融资总额1100亿美元

太赫兹创新联盟在复旦成立！赋能未来产业新赛道

小米Tag海外发布：仅重10克，兼容谷歌、苹果查找网络

仁宝AI Book概念本：C面掌托竟配大尺寸墨水屏！

专访图灵量子创始人金贤敏：量子计算近两年将迎爆发窗口

苹果公司首创三模态AI模型：让机器同时理解文字、图片和声音

小米Tag追踪器海外发布：仅重10克，兼容谷歌苹果双平台

小米17 Ultra徕卡海外版发布，竟卖1999欧元！

哈工大深圳团队重大突破：AI系统现在会"自我纠错"了！

50亿入局游艇产业，刘强东为何选中珠海经开区？

北大突破：诊断式迭代训练优化多模态AI性能

Meta自研AI芯片项目受挫：放弃最先进训练芯片Olympus

纽约大学突破：AI实现多角色同步控制《我的世界》场景建模

穆罕默德·本·扎耶德人工智能大学发布突破性医学AI

索尼联手AI让视频重新"听见"声音:短视频训练生成5分钟完美音效