当前位置: 首页 » 资讯 » 新科技 » 正文

慕尼黑工业大学团队揭秘:多模态AI面对细致提问时的"幻觉"困扰

IP属地 中国·北京 科技行者 时间:2026-03-27 18:38:51


在人工智能快速发展的今天,能够同时理解图片和文字的多模态大语言模型正在改变着我们与AI交互的方式。就像一个能看图说话的聪明助手,这些模型可以回答关于图片的各种问题。然而,这项由慕尼黑工业大学机器学习中心、亥姆霍茨慕尼黑研究中心、谷歌公司以及法国巴黎电信学院联合开展的最新研究,发表于2026年3月的arXiv预印本平台(论文编号:arXiv:2603.17662v1),却揭示了一个令人意外的发现:当我们向这些AI提出非常细致、精确的问题时,它们竟然会产生各种各样的"幻觉"。

这就好比一个平时表现不错的学生,在面对简单的选择题时能够轻松应答,但当遇到需要仔细分辨细节的题目时,却开始胡言乱语。研究团队发现,现有的测试标准就像只考简单题目的考卷,无法真正检测出这些AI在面对复杂细致问题时的表现缺陷。因此,他们专门设计了一套名为FINER的全新测试体系,专门用来检验AI在面对精细化问题时是否还能保持准确性。

更令人欣慰的是,研究团队不仅发现了问题,还提出了解决方案。他们开发了一套名为FINER-Tuning的训练方法,就像为学生量身定制的强化训练课程,专门提升AI处理细致问题的能力。实验结果显示,经过这种特殊训练的AI模型,在处理精细化问题时的准确率最高提升了24.2%,这个改进幅度相当显著。

一、AI"看图说话"的奇妙与困扰

当我们拿着一张家庭聚会的照片问AI"这里有猫吗?"时,大多数现代AI都能给出正确答案。但如果我们问得更加具体:"这里有一只主要为白色、带有黑色和灰色斑纹、头朝下、耳朵竖起、坐在椅子上的猫吗?"这时候,AI就开始"犯迷糊"了。

这种现象就像我们在日常生活中遇到的情况。假设你问朋友"今天天气好吗?"他能轻松回答,但如果你问"今天是否是多云转晴、风力3-4级、湿度在60%-70%之间、气压稳定的好天气?"朋友可能就会觉得这个问题太复杂而难以准确回答。

研究团队通过系统性的测试发现了一个有趣的规律:当问题变得越来越详细时,AI给出错误答案的概率会急剧上升。他们设计了七个不同精细度的问题层级,从最简单的"能看到猫吗?"到极其详细的描述,结果发现AI的准确率会从大约80%一路下滑到只有15%左右。

这个发现之所以重要,是因为在现实应用中,特别是医疗诊断、法律分析等对准确性要求极高的领域,人们往往需要向AI提出非常具体和详细的问题。如果AI在面对这些精细化问题时经常出错,那就可能造成严重后果。

更有趣的是,研究团队发现AI出错的方式很有规律性。当图片中确实存在一些描述中提到的元素时,AI往往会被这些"对"的部分误导,从而对整个描述给出肯定的回答,哪怕描述中还包含明显错误的细节。这就像一个人看到蛋糕上确实有草莓,就认同了"这是一个有草莓、巧克力、香草三种口味的蛋糕"这个说法,完全忽略了蛋糕实际上只有草莓味这个事实。

二、FINER测试体系:给AI出"刁钻"题目

为了更好地研究和解决这个问题,研究团队开发了两套全新的测试标准,分别基于CompreCap和DOCCI这两个图像数据集,命名为FINER-CompreCap和FINER-DOCCI。这两套测试就像是专门为AI设计的"高难度考卷"。

FINER-CompreCap包含了超过17000个测试题目,而FINER-DOCCI更是包含了超过71000个题目。这些题目的设计非常巧妙,分为四大类型,每一类都针对AI的不同能力进行考察。

第一类是多物体题目,就像问"这张图片里有狗、球和树吗?"但会故意把其中一个物体换成错误的,比如问"有狗、球和汽车吗?"当图片中实际上是狗、球和树的组合。这类题目考验AI是否能准确识别图片中的多个物体。

第二类是多属性题目,会详细描述某个物体的各种特征,比如"有一只白色的、有黑色斑点的、趴着的、耳朵下垂的狗吗?"然后故意在某个属性上出错,比如把"耳朵下垂"换成"耳朵竖立"。这考验AI对细节特征的把握能力。

第三类是多关系题目,关注的是物体之间的空间关系,比如"狗在树的左边,球在狗的右边",然后故意改变其中一个关系,看AI是否能发现这种空间关系的错误。

第四类是"什么"问题,这类题目会问"什么东西有着棕色毛发并且在草地上跑?"然后故意在描述中加入一个错误的特征,比如"什么东西有着棕色毛发、绿色眼睛并且在草地上跑?"当实际上那只狗的眼睛是褐色的。

为了确保这些"错误选项"真的是错误的,研究团队采用了一套复杂的验证流程。他们首先让AI生成可能的错误选项,然后用另一个更强大的AI来判断这些选项是否确实不存在于图片中,最后还有人工专家进行核查。这个过程就像制作一道复杂菜肴,需要多个厨师的配合和最终主厨的把关。

测试结果令人震惊。即便是目前最先进的AI模型,在面对这些精细化问题时也表现得不尽如人意。比如,某个在简单问题上能达到80%准确率的AI模型,在最复杂的精细化问题上准确率可能只有20%左右。这个差距就像一个平时考90分的学生,在面对高难度题目时只能考20分一样令人担忧。

三、FINER-Tuning训练法:让AI变得更"仔细"

发现问题之后,研究团队没有止步于此,而是开发了一套专门的训练方法来解决这个问题,他们称之为FINER-Tuning。这套方法就像是为AI量身定制的"细节观察训练课程"。

FINER-Tuning的核心思想是让AI在训练过程中大量接触各种精细化的问题,包括正确的和错误的描述。就像训练一个品酒师需要让他品尝各种不同的酒类,包括好酒和劣质酒,只有通过对比才能培养出敏锐的判断力。

这套训练方法使用了一种叫做"直接偏好优化"的技术。简单来说,就是给AI展示两种不同的回答方式,一种是准确的,一种是不准确的,然后告诉AI应该更倾向于选择准确的回答。这个过程不断重复,直到AI学会了在面对精细化问题时保持谨慎和准确。

训练数据的制作过程相当精巧。研究团队从一个名为Pixmo的大型图像描述数据集中选取了丰富的图像和详细描述,然后用AI助手生成各种不同类型的精细化问题和相应的正确与错误答案。这个过程就像是制作一本超级详细的练习册,每一道题都经过精心设计。

为了确保训练效果,研究团队还设计了巧妙的质量控制机制。他们会让AI判断生成的"错误选项"是否真的错误,如果发现某个"错误选项"实际上可能是正确的,就会重新生成。这个过程有点像食品质检,确保每一个"不良品"样本确实是不合格的。

经过FINER-Tuning训练的AI模型表现令人刮目相看。研究团队测试了四种不同的主流AI模型,包括LLaVA-NeXT、Qwen2.5-VL和InternVL等。结果显示,所有经过训练的模型在处理精细化问题时都有显著改进,其中InternVL3.5-14B模型的改进幅度最大,达到了24.2%。

更令人惊喜的是,这种训练不仅提升了AI处理FINER测试题目的能力,还在其他八个不同的幻觉检测测试中都表现出了改进。同时,AI在处理一般性任务时的表现也得到了提升,涵盖了六个不同的基准测试。这说明FINER-Tuning不是一种"应试训练",而是真正提升了AI的整体能力。

四、实验结果:数据背后的故事

研究团队进行了大量详细的实验来验证FINER-Tuning的效果。这些实验就像是一场全面的体检,从各个角度检测AI的"健康状况"。

在FINER-CompreCap测试中,没有经过特殊训练的AI模型表现参差不齐。比如,LLaVA-1.6模型在多物体问题上的准确率只有25.3%,这意味着四道题中只能答对一道。而经过FINER-Tuning训练后,这个数字跃升到了48.4%,几乎翻了一倍。这种改进就像一个原本经常看错东西的人戴上了合适的眼镜,突然能看清楚许多以前模糊的细节。

在更大规模的FINER-DOCCI测试中,改进效果同样显著。InternVL-3.5-14B模型经过训练后,在处理多关系问题时的准确率从41.4%提升到了57.0%,提升幅度达到15.6%。这个改进幅度在AI领域已经算是非常可观的进步了。

研究团队还专门研究了问题复杂程度对AI表现的影响。他们发现,随着问题中涉及的物体、属性或关系数量增加,AI的表现会逐渐下降,但FINER-Tuning能够显著缓解这种下降趋势。比如,当问题涉及六个不同物体时,未经训练的模型准确率可能只有20%左右,而经过训练的模型可以达到40%以上。

更有趣的是,研究团队发现了一种"位置偏见"现象。当错误信息出现在问题的不同位置时,AI的表现会有所不同。就像人类在阅读时往往对开头和结尾的信息印象更深刻一样,AI也表现出类似的特点。不过,FINER-Tuning在一定程度上缓解了这种偏见。

在与其他幻觉检测方法的比较中,FINER-Tuning展现出了全面的优势。在DASH、POPE、AMBER等多个标准测试中,经过FINER-Tuning训练的模型都表现出了一致的改进。特别值得一提的是,在一些生成式任务中,训练后的模型不仅减少了错误回答的比例,还提高了回答的质量。

研究团队还进行了人类表现的对比研究。他们邀请人类志愿者完成同样的测试题目,发现人类在这些精细化问题上的表现普遍在90%以上,远高于AI模型的表现。这说明这些问题对于人类来说并不算特别困难,AI的表现确实还有很大提升空间。

五、深入分析:为什么AI会"看走眼"

研究团队深入分析了AI产生幻觉的原因,发现了一些有趣的规律。就像医生需要了解病因才能开出正确的药方,理解AI出错的原因对于改进AI同样重要。

首先,AI往往容易被图片中确实存在的元素所"迷惑"。当一个复杂的描述中包含一些正确的信息时,AI可能会因为识别到了这些正确信息而对整个描述给出肯定的回答,即使描述中还包含明显错误的部分。这就像一个人看到菜单上写着"番茄鸡蛋面配青菜",因为确实看到了番茄和鸡蛋,就认为这道菜完全符合描述,忽略了实际上配菜是豆芽而不是青菜。

其次,问题的复杂程度直接影响AI的判断准确性。研究显示,当问题从简单的单一物体询问变成包含多个物体、多种属性和多种关系的复合问题时,AI的准确率会呈现明显的下降趋势。这种现象类似于人类的认知负荷理论,当需要同时处理的信息量超出处理能力时,错误率会显著增加。

研究团队还发现,不同类型的错误对AI的影响程度不同。一般来说,物体识别错误比属性错误更容易被AI发现,而空间关系错误则是最难被识别的。这可能与AI的训练方式有关,因为在大多数训练数据中,物体标签相对明确,而空间关系的描述往往更加微妙和复杂。

另一个有趣的发现是"干扰效应"的存在。当问题中包含多个相似或相关的元素时,AI更容易产生混淆。比如,当图片中同时出现猫和狗时,AI在回答关于"带斑点的猫"的问题时可能会受到狗的斑点特征干扰,从而给出错误的肯定回答。

研究团队通过详细的错误分析发现,大约60%的错误都可以归因于这种"部分匹配导致的误判"现象。剩下的40%错误则主要由于AI对细节特征的识别能力不足,比如无法准确区分"耳朵竖立"和"耳朵下垂"这样的细微差别。

六、训练策略的精巧设计

FINER-Tuning的成功不仅在于其核心理念,更在于实施细节的精心设计。整个训练过程就像一场精心编排的交响乐,每个环节都需要完美配合。

训练数据的构建过程充满了巧思。研究团队首先从大量的图像描述中提取出各种类型的正面信息,包括物体名称、属性特征和空间关系等。然后,他们使用AI助手生成对应的负面信息,但这个过程并不是简单的随机替换,而是要确保生成的负面信息在语义上合理但在事实上错误。

这就像制作一道考验味觉的菜肴,需要在保持菜品看起来美味的同时,故意在某个关键调料上做出改变。比如,在描述"红色的圆形苹果"时,负面样本可能是"绿色的圆形苹果"或"红色的方形苹果",而不是完全不相关的"蓝色的三角形香蕉"。

为了确保训练效果,研究团队采用了多轮验证机制。他们首先让一个强大的AI模型判断生成的负面样本是否确实不存在于图片中,如果判断不够确定,就会重新生成。这个过程可能需要反复进行多次,直到获得高质量的训练样本。

训练过程中还引入了平衡机制,确保AI既要学会拒绝错误的描述,也要能够接受正确的描述。这种平衡就像教一个孩子既要学会说"不",也要学会说"是",过于谨慎或过于轻信都不是好事。

研究团队还特别注意避免"过拟合"现象。他们使用了多种不同的问题模板,避免AI只是机械地记住某些特定的问题格式。同时,他们还在训练中加入了来自不同领域的图像,确保AI的改进能够泛化到各种不同的应用场景。

值得一提的是,FINER-Tuning采用的直接偏好优化技术相比传统的监督学习更加高效。传统方法需要大量明确标注的正确答案,而直接偏好优化只需要告诉AI哪种回答更好,这种相对比较的方式更接近人类学习的过程。

七、实际应用的广阔前景

这项研究的意义远不止于学术价值,它为AI在实际应用中的可靠性提升指明了方向。在许多对准确性要求极高的领域,FINER-Tuning的改进都可能产生重要影响。

在医疗诊断领域,医生经常需要向AI系统询问非常具体的问题,比如"患者的左上肺叶是否出现直径约5毫米的结节状阴影,边缘清晰,密度均匀?"这类问题的准确回答对诊断结果至关重要。经过FINER-Tuning训练的AI系统在处理这类精细化医疗问题时的可靠性显著提升。

在法律文件分析中,律师和法官可能需要AI准确识别合同中的特定条款和细节。比如询问"合同第三条是否规定甲方需要在2024年12月31日前支付不少于100万元的违约金,且该金额不受通胀调整影响?"这种问题要求AI对文本的理解极其精确,任何细节的遗漏都可能导致严重后果。

在自动驾驶领域,车载AI系统需要准确识别复杂的交通场景。比如判断"前方30米处是否有一辆红色小轿车正在向左转弯,同时右侧车道有一辆蓝色卡车保持直行?"这种多物体、多状态的复杂场景识别正是FINER训练方法重点改进的能力。

教育领域也是一个重要的应用方向。AI教学助手经常需要回答学生提出的详细具体的问题,比如"这个化学反应中,在温度为80度、压力为2个大气压的条件下,催化剂A是否会与反应物B结合生成中间产物C,同时释放出氢气?"这类问题的准确回答直接影响学习效果。

研究团队的方法还显示出良好的可扩展性。FINER-Tuning不仅可以应用于视觉问答系统,还可以扩展到其他多模态AI任务,比如音视频理解、文档分析等领域。这种通用性使得这项研究的影响力可能会远超最初的设想。

更重要的是,这项研究为AI的评估标准设立了新的基准。传统的AI评估往往关注整体性能,而忽略了在复杂细致问题上的表现。FINER基准测试的推出,为整个AI行业提供了更全面、更严格的评估工具。

八、面临的挑战与未来展望

尽管FINER-Tuning取得了令人鼓舞的成果,但研究团队也坦承还面临一些挑战和限制。这种诚实的态度正是优秀科学研究的特征之一。

首先是规模化的挑战。目前的研究主要基于相对较小的测试集和训练集,虽然已经包含数万个测试样本,但相对于实际应用中可能遇到的各种情况,这个规模还远远不够。就像一个厨师虽然掌握了制作某道菜的基本技巧,但要应对各种不同口味的客人需求,还需要更多的练习和经验积累。

其次是计算成本的考虑。FINER-Tuning需要大量的计算资源来生成高质量的训练数据和进行模型训练。对于大多数研究机构和公司来说,这可能是一个不小的负担。研究团队正在探索更高效的训练方法,以降低实施成本。

数据质量控制也是一个持续的挑战。虽然研究团队设计了多重验证机制,但完全消除训练数据中的噪声和错误仍然困难。特别是在处理大规模数据时,人工验证的成本会变得非常高昂。这就像质检员需要检查流水线上的每一个产品,工作量随着生产规模的扩大而急剧增加。

跨领域的泛化能力也需要进一步验证。目前的研究主要集中在日常生活场景的图像上,但AI在专业领域,比如医学影像、卫星图片、工业检测等方面的表现还需要专门的研究和优化。

研究团队对未来的发展方向充满信心。他们计划进一步扩大FINER基准测试的规模和覆盖范围,包括更多类型的图像和更复杂的问题。同时,他们也在探索将FINER的理念应用到其他AI任务中,比如文本理解、语音识别等领域。

另一个令人兴奋的发展方向是将FINER-Tuning与其他AI改进技术相结合。比如,可以将其与强化学习、联邦学习等技术结合,开发出更加强大和可靠的AI系统。

研究团队还计划开展更多的跨学科合作,特别是与心理学、认知科学等领域的专家合作,从人类认知的角度更好地理解AI的决策过程,从而开发出更接近人类思维方式的AI系统。

说到底,这项由慕尼黑工业大学领导的研究为我们揭示了AI技术中一个重要但长期被忽视的问题。就像发现了一个隐藏的软肋,这项研究不仅指出了问题所在,还提供了切实可行的解决方案。FINER-Tuning方法的成功证明,通过精心设计的训练策略,我们可以显著提升AI在处理复杂精细问题时的可靠性。

这项研究的影响将是深远的。它不仅为AI技术的改进提供了新的方向,也为各个应用领域的AI系统可靠性提升奠定了基础。从医疗诊断到自动驾驶,从教育辅助到法律分析,AI系统的精准性改进将让我们的生活变得更加安全和便利。

更重要的是,这项研究体现了科学研究的严谨态度和实用价值。研究团队不满足于表面的成功,而是深入挖掘问题的本质,并提出了系统性的解决方案。他们所开发的FINER基准测试和FINER-Tuning训练方法已经开源共享,为全球的AI研究者和从业者提供了宝贵的工具和资源。对于想要深入了解技术细节的读者,可以通过论文编号arXiv:2603.17662v1在arXiv平台查阅完整的研究报告。

Q&A

Q1:什么是FINER测试体系?

A:FINER是一套专门检测AI处理精细化问题能力的测试标准,包括多物体识别、多属性判断、多关系理解和"什么"问题四大类型,能够发现AI在面对复杂细致问题时的准确性缺陷,就像专门的高难度考卷一样。

Q2:FINER-Tuning训练方法有什么效果?

A:FINER-Tuning能显著提升AI处理精细化问题的准确率,最高改进幅度达到24.2%。更重要的是,这种训练不仅改善了AI在FINER测试上的表现,还在其他八个幻觉检测测试和六个通用能力测试中都显示出改进效果。

Q3:为什么AI会在细致问题上出现幻觉?

A:AI容易被图片中确实存在的部分信息所迷惑,当复杂描述中包含一些正确元素时,AI可能因为识别到这些正确信息而忽略描述中的错误部分,从而给出错误的肯定回答。这类似于人看到蛋糕上有草莓就认同整个复杂描述的情况。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新