当前位置: 首页 » 资讯 » 新科技 » 正文

北京智源等机构找到AI"看图说话"频繁出错的根本原因及解决方案

IP属地 中国·北京 科技行者 时间:2026-06-16 18:22:54


这项由北京智源人工智能研究院(BAAI)、意大利特伦托大学、新加坡管理大学和IQuest Research联合开展的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2606.08035,有兴趣深入了解的读者可通过该编号查询完整论文。

当一个孩子看图做数学题时,他需要时而盯着图中的角度数值,时而在草稿纸上推算,时而又回头看图确认某条线是否平行——这种在"看图"和"推理"之间灵活切换的能力,对人类来说再自然不过。然而,对于当前最先进的多模态AI大模型来说,这恰恰是一个隐藏已久的致命弱点。

研究团队观察到一个令人困惑的现象:即便是经过精心训练的AI模型,在做视觉推理题时也会频繁犯错。它们有时候会"看错图"——把图中明明是80度的角硬说成别的数值;有时候又会"逻辑跑偏"——前一句话刚说某个角是80度,下一句就莫名其妙地声称另一个角等于它,完全没有依据。这两类错误看起来不同,但研究团队怀疑它们有共同的根源。带着这个疑问,他们开展了一系列深入调查,最终找到了问题所在,并提出了一套名为DyCo-RL(动态跨模态协调强化学习)的解决方案。

一、为什么AI做视觉题会频繁"神游"

要理解这项研究在解决什么问题,可以把AI模型的推理过程想象成一个学生在课堂上解题。这个学生有两份资料:一张印有图形的试卷(视觉信息),以及自己刚才写下的解题步骤(文字信息)。解题时,他需要在这两份资料之间灵活切换——有时需要低头看图确认数值,有时需要看着自己的推导步骤继续往下算。

当前训练AI做视觉推理的主流方法叫做"基于可验证奖励的强化学习"(RLVR)。简单说,就是让AI做大量题目,答对了给奖励,答错了不给,通过这种反复练习让AI越来越聪明。这个方法本身没有问题,但它存在一个根本性的盲点:它只关心AI最终有没有答对,完全不管AI在解题过程中是怎么分配注意力的。

这就好比一位老师批改作业,只看最终答案对不对,从不看解题过程。如果学生养成了一个坏习惯——在本该看图的时候发呆,在本该推理的时候乱翻图——老师也察觉不到,更不会纠正。久而久之,这个坏习惯就固化下来,成为答题失误的根源。

研究团队把这种问题称为"跨模态协调崩溃"。具体来说,AI在生成推理过程中,某些词语(比如描述图中角度的词)本应该主要"参考图片",另一些词语(比如根据前面推导出结论的词)本应该主要"参考之前写的文字"。但实际情况是,这两类词语都没有很好地参考自己该参考的信息来源,导致推理频繁出错。

二、深入AI内部:用"注意力轨迹"给错误做X光检查

为了证明这个假设不只是猜测,研究团队设计了一套精密的诊断方案,相当于给AI的推理过程做了一次全程X光扫描。

他们选取了Qwen2.5-VL-3B这个模型(经过标准强化学习训练后的版本),从两个数学视觉推理数据集中收集了200个错误案例。然后,他们让多名具备研究生数学水平的标注员,把AI生成的每个词(更准确地说是每个语义片段)打上标签:这个词是在"看图描述"还是在"基于已有文字推理"?标注结果正确还是错误?

经过这套流程,每个词都被分进四个组之一。"正确的看图词"是那些准确描述了图片内容的词,比如正确读出了角度数值。"错误的看图词"是那些试图描述图片但说错了的词,比如把60度的角说成80度。"正确的推理词"是那些基于前面的推导步骤做出了有效逻辑推断的词。"错误的推理词"则是那些逻辑跳跃、自相矛盾或无中生有的词。

接下来,团队分析了每组词的"注意力分配模式"——也就是这些词在生成时,有多少注意力放在了图片上,有多少放在了之前写下的文字上。结果相当清晰:正确的看图词,给图片的注意力明显更高;错误的看图词,给图片的注意力反而更低。对称地,正确的推理词更专注于之前的文字,错误的推理词对文字的关注度也更低。

这说明注意力分配和词语是否正确之间存在显著关联。但关联不等于因果,也许是因为词语本身就错了才导致注意力怪异,而不是注意力怪异导致词语出错。为了区分这两种可能性,团队又做了一个"手术实验"。

他们找到那些"该看图但没认真看图"的错误词,在AI生成这些词时人为增强它对图片的注意力;同样地,对于"该看文字但没认真看文字"的错误词,人为增强它对之前文字的注意力。通过调整一个控制增强强度的参数,团队发现:适度增强确实能让AI纠正之前的错误,给出正确答案——恢复率相当可观。而过度增强则会适得其反,破坏原有的注意力平衡。

这个实验确立了因果关系:注意力分配不当是造成推理错误的真实原因,而不只是伴随现象。至此,问题的根源找到了,接下来就是怎么解决的问题。

三、DyCo-RL:给每个词定制专属的学习信号

研究团队提出的解决方案DyCo-RL,核心思路可以用一个体育教练的比喻来理解。传统的训练方式是:一场比赛结束后,根据最终比分对所有队员给出一个统一的评价——赢了都夸,输了都骂。这种方式忽略了每个队员在比赛中的具体表现。DyCo-RL的做法则是:记录每个队员在每个时刻的具体行为,根据每个人的职责来评估他做得好不好,然后给出有针对性的反馈。

DyCo-RL的工作流程分为两个阶段,两个阶段紧密衔接,共同完成这种精细化的训练。

第一个阶段是"给每个词分配职责"。研究团队需要一种自动化的方式来判断:AI在生成某个词时,它的主要职责是看图还是推理?他们选择了一种叫做Fisher-Rao测地距离的数学工具来完成这个判断。

这个工具听起来很复杂,但背后的直觉非常简单。当AI生成一个词时,可以观察这个词对图片内部各个位置的注意力分布,以及对之前文字各个部分的注意力分布。再把这个词与上一个词的注意力分布做比较:如果图片的注意力分布发生了显著的重新排列(比如上一个词主要看左边,这个词突然开始主要看右边),说明这个词正在从图片中主动提取新的信息,应该被判定为"视觉导向词"。如果文字的注意力分布发生了显著重排,则判定为"文字导向词"。如果两者的变化都不明显,则视为"中性词",不做特殊处理。

研究团队特意选择Fisher-Rao距离而非其他常见的相似度度量(比如KL散度),是因为这个距离在数学上具有对称性和有界性,对于噪声较多的注意力数据更加稳定可靠。后续的对比实验也证实了这个选择的优越性。

第二个阶段是"根据职责表现调整学习信号"。确定了每个词的职责之后,DyCo-RL会评估这个词是否真的按照职责行事。对于被判定为视觉导向的词,检查它对图片的实际注意力比例;对于文字导向词,检查它对之前文字的注意力比例。这个"职责履行程度"被量化为一个对齐分数。

在强化学习训练中,AI的学习方向取决于一个叫做"优势"的信号——粗略理解为"这个词的表现比平均水平好多少"。传统方法对一个回答中的所有词使用同一个优势值。DyCo-RL则将这个统一的优势值,根据每个词的对齐分数进行重新加权:对齐分数高的词(职责履行得好的词)获得更强的学习信号,鼓励AI巩固这种行为;对齐分数低的词获得较弱的学习信号,减少这种错误模式被强化的概率。

这个机制的设计相当精妙:它不是简单地惩罚错误词或奖励正确词,而是在词语本身正确或错误的基础上,叠加了一层"过程质量"的评估。即便某个词的答案最终是对的,如果它在生成时注意力分配混乱,也不会获得额外加分;反之,一个词如果注意力分配非常合理,即便整体回答最终错了,这个词的良好行为也会被适当保留。

四、实验验证:七个战场,四种算法,全面碾压

为了证明DyCo-RL不只是在某种特定设置下有效,研究团队设计了一套相当全面的验证体系。

实验在两个规模的模型上进行:参数量30亿的Qwen2.5-VL-3B和70亿的Qwen2.5-VL-7B。训练数据使用了ThinkLite-hard-11K数据集,包含11031个复杂推理样本。

更重要的是,研究团队把DyCo-RL当作一个插件,分别挂载在四种不同的强化学习算法上进行测试。这四种算法代表了当前主流的不同优化思路:GRPO依赖组内奖励归一化;DAPO引入了不对称裁剪和动态采样策略;SAPO使用了基于Sigmoid的软门控机制;GSPO则在整个轨迹层面计算累积似然比。这四种算法的内部机制差异显著,如果DyCo-RL在所有四种上都能带来提升,就说明它解决的是一个更底层的共性问题。

评估使用七个基准测试,覆盖两大领域。数学推理方向包括WeMath、MathVision和MathVerse,分别从不同角度测试视觉数学推理能力。视觉推理方向包括LogicVista、HallusionBench、MME和MMBench,重点测试视觉感知准确性、抗幻觉能力和综合多模态理解能力。

结果相当令人满意。在30亿模型上,GRPO加入DyCo-RL后,七个基准的平均分从44.9提升到46.7;DAPO从44.5提升到46.8;SAPO从45.8提升到47.3;GSPO从44.8提升到46.0。在70亿模型上,提升幅度同样稳定:GRPO从55.6升至58.3,DAPO从52.2升至54.8,SAPO从55.0升至55.8,GSPO从53.4升至56.5。单项最大提升幅度达到13.1分(MMBench上的GRPO+DyCo-RL对比GRPO基线)。

这些提升不是只发生在某一类任务上。DyCo-RL在视觉密集型任务(比如HallusionBench和MME)上增强了视觉证据的准确提取,同时在纯数学推理任务上也保持甚至改善了逻辑连贯性。这个"鱼与熊掌兼得"的结果,正是研究团队最想看到的——它证明了提升视觉感知和保持推理质量并不矛盾,两者可以通过更好的协调机制同时实现。

五、拆开来看:每个零件都经过严格检验

为了确认DyCo-RL的每个组件都是必要的,研究团队做了一系列拆解实验,相当于把这台机器的零件逐一拆下来看看少了哪个会出问题。

关于"如何给词分配职责"这个问题,团队尝试了四种替代方案并与DyCo-RL进行对比。随机分配(纯粹随机给每个词加权)的结果只有微弱的不稳定提升,说明乱加权基本等于加噪声。反向分配(故意颠倒职责,让视觉词去对齐文字注意力,反之亦然)造成了所有方案中最严重的性能下滑——这个反向结果其实是最有力的证据之一:它说明DyCo-RL的职责判断方向是对的,因为颠倒方向会让事情变得更糟。基于熵的方案(用单个时刻注意力分布的集中程度来判断职责)比随机稍好,但因为它只看单一时刻的快照,无法捕捉注意力的动态变化。基于KL散度的方案(也是比较相邻时刻的注意力分布变化)更接近DyCo-RL的思路,性能也相当不错,但因为KL散度在数学上是不对称的,在复杂的跨模态场景中不够稳健。最终,使用Fisher-Rao距离的完整DyCo-RL在所有基准上取得了最佳平均成绩。

关于"如何利用职责信息调整学习信号"这个问题,团队测试了两种极端的替代方案:对所有词统一使用视觉注意力分数,或统一使用文字注意力分数。结果非常直观:统一使用视觉分数会让视觉任务变好但数学推理变差;统一使用文字分数则反过来。这说明单纯鼓励模型"多看图"或"多看文字"是不够的,关键在于根据每个词的具体职责动态切换——这正是DyCo-RL的核心设计理念。

团队还测试了"奖励塑形"这种替代路线,也就是把对齐分数直接加到每个回答的总奖励里,而不是用来调整优势权重。这种方案偶尔能超过基线,但整体不稳定,平均表现比DyCo-RL的优势重加权方案差。原因在于:直接修改奖励会在组归一化之前改变奖励的尺度和方差,导致优势估计引入额外噪声,使训练不稳定。而优势重加权是在基线计算完成之后才注入精细化信号,不会扰动整体的统计稳定性。

六、深入AI内心:DyCo-RL究竟改变了什么

除了基准测试的数字提升,研究团队还专门调查了DyCo-RL在AI内部究竟发生了什么变化,相当于在数字提升背后找到了机制层面的解释。

团队从MathVerse和MathVision上各采样了200个生成案例,分别来自标准GRPO和加了DyCo-RL的GRPO版本,然后用相同的标注协议标记每个词的职责类型,对比两个模型的内部注意力分配。

结果显示,DyCo-RL训练后的模型,在视觉导向词上对图片的平均注意力比例提高了约0.6个百分点,对文字的关注则下降了约0.8个百分点;在文字导向词上,对文字的关注提高了约2.1个百分点,对图片的关注下降了约1.4个百分点。这些变化的方向完全符合预期:视觉词变得更"专心看图",文字词变得更"专心看字"。

更有意思的是时间维度上的变化。标准GRPO训练出来的模型呈现出一种固化的"先感知后推理"模式:视觉导向词主要集中在推理过程的前期(相对位置0到0.4的区间),文字导向词则主要出现在后期。这就像一个学生做题时,先花固定时间看图,然后把图一合不再看,开始纯靠脑子推导——实际上很多时候需要中途回头看图验证。

DyCo-RL打破了这种僵化模式。训练后的模型,视觉导向词在推理中期(0.4到0.6的区间)维持了更高的存在频率,实现了"边推理边回头看图"的效果;与此同时,文字导向词在前期也有更早的出现,整体分布更加均匀。这种"视觉和推理交替穿插"的模式,正是人类解决复杂视觉推理问题时的自然策略。

七、超出预期的泛化能力与客观存在的局限

研究团队还担心一个问题:DyCo-RL的训练数据主要来自视觉数学推理,那么它学到的对齐机制会不会只在这个特定场景下有效,换了别的任务就不灵了?

为了验证这一点,他们把训练好的模型拿去测试了五个完全不同类型的任务:A-OKVQA(需要常识的视觉问答)、RealWorldQA(真实世界场景理解)、MMStar(综合多模态评测)、SEED-Bench图像版和ChartQA(图表理解)。在所有五个任务上,DyCo-RL版本都超过了标准GRPO基线,且没有出现明显的过拟合迹象。这说明跨模态协调能力并不只是在数学题上才有用,它是一种更通用的多模态推理能力。

当然,这项研究也有两个清醒的局限。在计算开销上,DyCo-RL在训练时需要为每个生成的词计算Fisher-Rao距离和角色分配,这使得训练吞吐量下降了约27%。不过,这个额外开销完全发生在训练阶段;推理部署时,模型和普通版本完全相同,没有任何速度损失。在规模验证上,所有实验都在30亿和70亿参数规模上进行,对于数百亿甚至千亿参数的更大模型,这套机制是否同样有效,还需要进一步验证。

说到底,这项研究揭示了一个长期被忽视但影响深远的问题:AI在做视觉推理时的注意力分配机制,和最终答案的正确性之间,存在真实的因果联系。以往的训练方法只盯着最终答案,相当于只看成绩单、不看学习过程,导致AI养成了一种低效甚至有害的注意力习惯——该看图时没认真看,该专注推理时又心猿意马。DyCo-RL把这个隐藏的过程问题显式化,并将其纳入训练目标,让AI在强化学习过程中同时优化"答对"和"正确地使用注意力"两件事。

这对普通人的生活意味着什么?随着AI越来越多地被用于读取医疗影像、分析卫星图像、辅助课程讲解或处理复杂文档,AI在"视觉感知"和"逻辑推理"之间的协调能力将直接影响这些应用的可靠性。一个看图说话频繁出错的AI助手,不只是令人烦恼,在高风险场景下还可能造成实质性的危害。从这个角度看,这项研究探索的方向——让AI更像人类一样灵活地在看和想之间切换——是让AI真正值得信赖的必要前提之一。

对跨模态协调机制感兴趣、或者想进一步了解DyCo-RL技术细节的读者,可以通过arXiv论文编号2606.08035查阅完整原文,研究代码也已在GitHub公开。

Q&A

Q1:DyCo-RL解决的是什么问题?

A:DyCo-RL解决的是多模态AI模型在做视觉推理时"注意力分配混乱"的问题。具体来说,AI在生成推理文字时,该看图的词没认真看图,该基于已有文字推理的词也没专注于之前的文字,导致视觉幻觉和逻辑不连贯等错误频繁出现。DyCo-RL通过给每个词分配明确职责并相应调整训练信号,让AI学会在视觉感知和文字推理之间更灵活地切换。

Q2:Fisher-Rao距离在DyCo-RL里起什么作用?

A:Fisher-Rao测地距离是DyCo-RL用来判断每个生成词"职责类型"的核心工具。它通过比较AI生成相邻两个词时,对图片内部各位置的注意力分布变化幅度,以及对已有文字各部分的注意力分布变化幅度,来判断这个词主要是在从图片中提取信息还是在整合已有文字推理。选择它而非KL散度等其他方案,是因为它在数学上具有对称性和有界性,对注意力数据中的噪声更加稳健。

Q3:DyCo-RL训练出来的模型推理速度会变慢吗?

A:不会。DyCo-RL的计算开销只发生在训练阶段,训练吞吐量会下降约27%。但一旦训练完成,最终得到的模型和普通版本在结构上完全一致,推理部署时没有任何额外计算,运行速度与基础模型相同。用户在使用DyCo-RL训练的模型时,不会感受到任何性能差异。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。