当前位置：首页 » 资讯 » 新科技 » 正文

北京智源等机构找到AI"看图说话"频繁出错的根本原因及解决方案

IP属地中国·北京 科技行者 时间：2026-06-16 18:22:54

这项由北京智源人工智能研究院（BAAI）、意大利特伦托大学、新加坡管理大学和IQuest Research联合开展的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.08035，有兴趣深入了解的读者可通过该编号查询完整论文。
当一个孩子看图做数学题时，他需要时而盯着图中的角度数值，时而在草稿纸上推算，时而又回头看图确认某条线是否平行——这种在"看图"和"推理"之间灵活切换的能力，对人类来说再自然不过。然而，对于当前最先进的多模态AI大模型来说，这恰恰是一个隐藏已久的致命弱点。
研究团队观察到一个令人困惑的现象：即便是经过精心训练的AI模型，在做视觉推理题时也会频繁犯错。它们有时候会"看错图"——把图中明明是80度的角硬说成别的数值；有时候又会"逻辑跑偏"——前一句话刚说某个角是80度，下一句就莫名其妙地声称另一个角等于它，完全没有依据。这两类错误看起来不同，但研究团队怀疑它们有共同的根源。带着这个疑问，他们开展了一系列深入调查，最终找到了问题所在，并提出了一套名为DyCo-RL（动态跨模态协调强化学习）的解决方案。
一、为什么AI做视觉题会频繁"神游"
要理解这项研究在解决什么问题，可以把AI模型的推理过程想象成一个学生在课堂上解题。这个学生有两份资料：一张印有图形的试卷（视觉信息），以及自己刚才写下的解题步骤（文字信息）。解题时，他需要在这两份资料之间灵活切换——有时需要低头看图确认数值，有时需要看着自己的推导步骤继续往下算。
当前训练AI做视觉推理的主流方法叫做"基于可验证奖励的强化学习"（RLVR）。简单说，就是让AI做大量题目，答对了给奖励，答错了不给，通过这种反复练习让AI越来越聪明。这个方法本身没有问题，但它存在一个根本性的盲点：它只关心AI最终有没有答对，完全不管AI在解题过程中是怎么分配注意力的。
这就好比一位老师批改作业，只看最终答案对不对，从不看解题过程。如果学生养成了一个坏习惯——在本该看图的时候发呆，在本该推理的时候乱翻图——老师也察觉不到，更不会纠正。久而久之，这个坏习惯就固化下来，成为答题失误的根源。
研究团队把这种问题称为"跨模态协调崩溃"。具体来说，AI在生成推理过程中，某些词语（比如描述图中角度的词）本应该主要"参考图片"，另一些词语（比如根据前面推导出结论的词）本应该主要"参考之前写的文字"。但实际情况是，这两类词语都没有很好地参考自己该参考的信息来源，导致推理频繁出错。
二、深入AI内部：用"注意力轨迹"给错误做X光检查
为了证明这个假设不只是猜测，研究团队设计了一套精密的诊断方案，相当于给AI的推理过程做了一次全程X光扫描。
他们选取了Qwen2.5-VL-3B这个模型（经过标准强化学习训练后的版本），从两个数学视觉推理数据集中收集了200个错误案例。然后，他们让多名具备研究生数学水平的标注员，把AI生成的每个词（更准确地说是每个语义片段）打上标签：这个词是在"看图描述"还是在"基于已有文字推理"？标注结果正确还是错误？
经过这套流程，每个词都被分进四个组之一。"正确的看图词"是那些准确描述了图片内容的词，比如正确读出了角度数值。"错误的看图词"是那些试图描述图片但说错了的词，比如把60度的角说成80度。"正确的推理词"是那些基于前面的推导步骤做出了有效逻辑推断的词。"错误的推理词"则是那些逻辑跳跃、自相矛盾或无中生有的词。
接下来，团队分析了每组词的"注意力分配模式"——也就是这些词在生成时，有多少注意力放在了图片上，有多少放在了之前写下的文字上。结果相当清晰：正确的看图词，给图片的注意力明显更高；错误的看图词，给图片的注意力反而更低。对称地，正确的推理词更专注于之前的文字，错误的推理词对文字的关注度也更低。
这说明注意力分配和词语是否正确之间存在显著关联。但关联不等于因果，也许是因为词语本身就错了才导致注意力怪异，而不是注意力怪异导致词语出错。为了区分这两种可能性，团队又做了一个"手术实验"。
他们找到那些"该看图但没认真看图"的错误词，在AI生成这些词时人为增强它对图片的注意力；同样地，对于"该看文字但没认真看文字"的错误词，人为增强它对之前文字的注意力。通过调整一个控制增强强度的参数，团队发现：适度增强确实能让AI纠正之前的错误，给出正确答案——恢复率相当可观。而过度增强则会适得其反，破坏原有的注意力平衡。
这个实验确立了因果关系：注意力分配不当是造成推理错误的真实原因，而不只是伴随现象。至此，问题的根源找到了，接下来就是怎么解决的问题。
三、DyCo-RL：给每个词定制专属的学习信号
研究团队提出的解决方案DyCo-RL，核心思路可以用一个体育教练的比喻来理解。传统的训练方式是：一场比赛结束后，根据最终比分对所有队员给出一个统一的评价——赢了都夸，输了都骂。这种方式忽略了每个队员在比赛中的具体表现。DyCo-RL的做法则是：记录每个队员在每个时刻的具体行为，根据每个人的职责来评估他做得好不好，然后给出有针对性的反馈。
DyCo-RL的工作流程分为两个阶段，两个阶段紧密衔接，共同完成这种精细化的训练。
第一个阶段是"给每个词分配职责"。研究团队需要一种自动化的方式来判断：AI在生成某个词时，它的主要职责是看图还是推理？他们选择了一种叫做Fisher-Rao测地距离的数学工具来完成这个判断。
这个工具听起来很复杂，但背后的直觉非常简单。当AI生成一个词时，可以观察这个词对图片内部各个位置的注意力分布，以及对之前文字各个部分的注意力分布。再把这个词与上一个词的注意力分布做比较：如果图片的注意力分布发生了显著的重新排列（比如上一个词主要看左边，这个词突然开始主要看右边），说明这个词正在从图片中主动提取新的信息，应该被判定为"视觉导向词"。如果文字的注意力分布发生了显著重排，则判定为"文字导向词"。如果两者的变化都不明显，则视为"中性词"，不做特殊处理。
研究团队特意选择Fisher-Rao距离而非其他常见的相似度度量（比如KL散度），是因为这个距离在数学上具有对称性和有界性，对于噪声较多的注意力数据更加稳定可靠。后续的对比实验也证实了这个选择的优越性。
第二个阶段是"根据职责表现调整学习信号"。确定了每个词的职责之后，DyCo-RL会评估这个词是否真的按照职责行事。对于被判定为视觉导向的词，检查它对图片的实际注意力比例；对于文字导向词，检查它对之前文字的注意力比例。这个"职责履行程度"被量化为一个对齐分数。
在强化学习训练中，AI的学习方向取决于一个叫做"优势"的信号——粗略理解为"这个词的表现比平均水平好多少"。传统方法对一个回答中的所有词使用同一个优势值。DyCo-RL则将这个统一的优势值，根据每个词的对齐分数进行重新加权：对齐分数高的词（职责履行得好的词）获得更强的学习信号，鼓励AI巩固这种行为；对齐分数低的词获得较弱的学习信号，减少这种错误模式被强化的概率。
这个机制的设计相当精妙：它不是简单地惩罚错误词或奖励正确词，而是在词语本身正确或错误的基础上，叠加了一层"过程质量"的评估。即便某个词的答案最终是对的，如果它在生成时注意力分配混乱，也不会获得额外加分；反之，一个词如果注意力分配非常合理，即便整体回答最终错了，这个词的良好行为也会被适当保留。
四、实验验证：七个战场，四种算法，全面碾压
为了证明DyCo-RL不只是在某种特定设置下有效，研究团队设计了一套相当全面的验证体系。
实验在两个规模的模型上进行：参数量30亿的Qwen2.5-VL-3B和70亿的Qwen2.5-VL-7B。训练数据使用了ThinkLite-hard-11K数据集，包含11031个复杂推理样本。
更重要的是，研究团队把DyCo-RL当作一个插件，分别挂载在四种不同的强化学习算法上进行测试。这四种算法代表了当前主流的不同优化思路：GRPO依赖组内奖励归一化；DAPO引入了不对称裁剪和动态采样策略；SAPO使用了基于Sigmoid的软门控机制；GSPO则在整个轨迹层面计算累积似然比。这四种算法的内部机制差异显著，如果DyCo-RL在所有四种上都能带来提升，就说明它解决的是一个更底层的共性问题。
评估使用七个基准测试，覆盖两大领域。数学推理方向包括WeMath、MathVision和MathVerse，分别从不同角度测试视觉数学推理能力。视觉推理方向包括LogicVista、HallusionBench、MME和MMBench，重点测试视觉感知准确性、抗幻觉能力和综合多模态理解能力。
结果相当令人满意。在30亿模型上，GRPO加入DyCo-RL后，七个基准的平均分从44.9提升到46.7；DAPO从44.5提升到46.8；SAPO从45.8提升到47.3；GSPO从44.8提升到46.0。在70亿模型上，提升幅度同样稳定：GRPO从55.6升至58.3，DAPO从52.2升至54.8，SAPO从55.0升至55.8，GSPO从53.4升至56.5。单项最大提升幅度达到13.1分（MMBench上的GRPO+DyCo-RL对比GRPO基线）。
这些提升不是只发生在某一类任务上。DyCo-RL在视觉密集型任务（比如HallusionBench和MME）上增强了视觉证据的准确提取，同时在纯数学推理任务上也保持甚至改善了逻辑连贯性。这个"鱼与熊掌兼得"的结果，正是研究团队最想看到的——它证明了提升视觉感知和保持推理质量并不矛盾，两者可以通过更好的协调机制同时实现。
五、拆开来看：每个零件都经过严格检验
为了确认DyCo-RL的每个组件都是必要的，研究团队做了一系列拆解实验，相当于把这台机器的零件逐一拆下来看看少了哪个会出问题。
关于"如何给词分配职责"这个问题，团队尝试了四种替代方案并与DyCo-RL进行对比。随机分配（纯粹随机给每个词加权）的结果只有微弱的不稳定提升，说明乱加权基本等于加噪声。反向分配（故意颠倒职责，让视觉词去对齐文字注意力，反之亦然）造成了所有方案中最严重的性能下滑——这个反向结果其实是最有力的证据之一：它说明DyCo-RL的职责判断方向是对的，因为颠倒方向会让事情变得更糟。基于熵的方案（用单个时刻注意力分布的集中程度来判断职责）比随机稍好，但因为它只看单一时刻的快照，无法捕捉注意力的动态变化。基于KL散度的方案（也是比较相邻时刻的注意力分布变化）更接近DyCo-RL的思路，性能也相当不错，但因为KL散度在数学上是不对称的，在复杂的跨模态场景中不够稳健。最终，使用Fisher-Rao距离的完整DyCo-RL在所有基准上取得了最佳平均成绩。
关于"如何利用职责信息调整学习信号"这个问题，团队测试了两种极端的替代方案：对所有词统一使用视觉注意力分数，或统一使用文字注意力分数。结果非常直观：统一使用视觉分数会让视觉任务变好但数学推理变差；统一使用文字分数则反过来。这说明单纯鼓励模型"多看图"或"多看文字"是不够的，关键在于根据每个词的具体职责动态切换——这正是DyCo-RL的核心设计理念。
团队还测试了"奖励塑形"这种替代路线，也就是把对齐分数直接加到每个回答的总奖励里，而不是用来调整优势权重。这种方案偶尔能超过基线，但整体不稳定，平均表现比DyCo-RL的优势重加权方案差。原因在于：直接修改奖励会在组归一化之前改变奖励的尺度和方差，导致优势估计引入额外噪声，使训练不稳定。而优势重加权是在基线计算完成之后才注入精细化信号，不会扰动整体的统计稳定性。
六、深入AI内心：DyCo-RL究竟改变了什么
除了基准测试的数字提升，研究团队还专门调查了DyCo-RL在AI内部究竟发生了什么变化，相当于在数字提升背后找到了机制层面的解释。
团队从MathVerse和MathVision上各采样了200个生成案例，分别来自标准GRPO和加了DyCo-RL的GRPO版本，然后用相同的标注协议标记每个词的职责类型，对比两个模型的内部注意力分配。
结果显示，DyCo-RL训练后的模型，在视觉导向词上对图片的平均注意力比例提高了约0.6个百分点，对文字的关注则下降了约0.8个百分点；在文字导向词上，对文字的关注提高了约2.1个百分点，对图片的关注下降了约1.4个百分点。这些变化的方向完全符合预期：视觉词变得更"专心看图"，文字词变得更"专心看字"。
更有意思的是时间维度上的变化。标准GRPO训练出来的模型呈现出一种固化的"先感知后推理"模式：视觉导向词主要集中在推理过程的前期（相对位置0到0.4的区间），文字导向词则主要出现在后期。这就像一个学生做题时，先花固定时间看图，然后把图一合不再看，开始纯靠脑子推导——实际上很多时候需要中途回头看图验证。
DyCo-RL打破了这种僵化模式。训练后的模型，视觉导向词在推理中期（0.4到0.6的区间）维持了更高的存在频率，实现了"边推理边回头看图"的效果；与此同时，文字导向词在前期也有更早的出现，整体分布更加均匀。这种"视觉和推理交替穿插"的模式，正是人类解决复杂视觉推理问题时的自然策略。
七、超出预期的泛化能力与客观存在的局限
研究团队还担心一个问题：DyCo-RL的训练数据主要来自视觉数学推理，那么它学到的对齐机制会不会只在这个特定场景下有效，换了别的任务就不灵了？
为了验证这一点，他们把训练好的模型拿去测试了五个完全不同类型的任务：A-OKVQA（需要常识的视觉问答）、RealWorldQA（真实世界场景理解）、MMStar（综合多模态评测）、SEED-Bench图像版和ChartQA（图表理解）。在所有五个任务上，DyCo-RL版本都超过了标准GRPO基线，且没有出现明显的过拟合迹象。这说明跨模态协调能力并不只是在数学题上才有用，它是一种更通用的多模态推理能力。
当然，这项研究也有两个清醒的局限。在计算开销上，DyCo-RL在训练时需要为每个生成的词计算Fisher-Rao距离和角色分配，这使得训练吞吐量下降了约27%。不过，这个额外开销完全发生在训练阶段；推理部署时，模型和普通版本完全相同，没有任何速度损失。在规模验证上，所有实验都在30亿和70亿参数规模上进行，对于数百亿甚至千亿参数的更大模型，这套机制是否同样有效，还需要进一步验证。
说到底，这项研究揭示了一个长期被忽视但影响深远的问题：AI在做视觉推理时的注意力分配机制，和最终答案的正确性之间，存在真实的因果联系。以往的训练方法只盯着最终答案，相当于只看成绩单、不看学习过程，导致AI养成了一种低效甚至有害的注意力习惯——该看图时没认真看，该专注推理时又心猿意马。DyCo-RL把这个隐藏的过程问题显式化，并将其纳入训练目标，让AI在强化学习过程中同时优化"答对"和"正确地使用注意力"两件事。
这对普通人的生活意味着什么？随着AI越来越多地被用于读取医疗影像、分析卫星图像、辅助课程讲解或处理复杂文档，AI在"视觉感知"和"逻辑推理"之间的协调能力将直接影响这些应用的可靠性。一个看图说话频繁出错的AI助手，不只是令人烦恼，在高风险场景下还可能造成实质性的危害。从这个角度看，这项研究探索的方向——让AI更像人类一样灵活地在看和想之间切换——是让AI真正值得信赖的必要前提之一。
对跨模态协调机制感兴趣、或者想进一步了解DyCo-RL技术细节的读者，可以通过arXiv论文编号2606.08035查阅完整原文，研究代码也已在GitHub公开。
Q&A
Q1：DyCo-RL解决的是什么问题？
A：DyCo-RL解决的是多模态AI模型在做视觉推理时"注意力分配混乱"的问题。具体来说，AI在生成推理文字时，该看图的词没认真看图，该基于已有文字推理的词也没专注于之前的文字，导致视觉幻觉和逻辑不连贯等错误频繁出现。DyCo-RL通过给每个词分配明确职责并相应调整训练信号，让AI学会在视觉感知和文字推理之间更灵活地切换。
Q2：Fisher-Rao距离在DyCo-RL里起什么作用？
A：Fisher-Rao测地距离是DyCo-RL用来判断每个生成词"职责类型"的核心工具。它通过比较AI生成相邻两个词时，对图片内部各位置的注意力分布变化幅度，以及对已有文字各部分的注意力分布变化幅度，来判断这个词主要是在从图片中提取信息还是在整合已有文字推理。选择它而非KL散度等其他方案，是因为它在数学上具有对称性和有界性，对注意力数据中的噪声更加稳健。
Q3：DyCo-RL训练出来的模型推理速度会变慢吗？
A：不会。DyCo-RL的计算开销只发生在训练阶段，训练吞吐量会下降约27%。但一旦训练完成，最终得到的模型和普通版本在结构上完全一致，推理部署时没有任何额外计算，运行速度与基础模型相同。用户在使用DyCo-RL训练的模型时，不会感受到任何性能差异。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

蔚来的“暗战”时刻

美食直达登机口｜青岛机场联合美团正式上线登机口智能送餐服务

刚刚，谷歌诺贝尔奖得主被Anthropic收编

小红书计划本月底前秘密在港递表，估值曾达310亿美元

消息称小红书拟秘密赴港递交IPO申请

在线观看人数暴涨55倍，世界杯直播创造小红书直播新纪录

全站最新

蔚来的“暗战”时刻

美食直达登机口｜青岛机场联合美团正式上线登机口智能送餐服务

刚刚，谷歌诺贝尔奖得主被Anthropic收编

小红书计划本月底前秘密在港递表，估值曾达310亿美元

热门推荐

蔚来的“暗战”时刻

谷歌前 CEO 施密特执掌的火箭公司获 NASA 青睐 2028 年征战火星

华为Mate XT2首发U型阔三折：彻底解决内屏易刮花痛点

荣耀X80 Pro Max现身电信终端产品库 11000mAh行业最大电池出门告别充电宝

美食直达登机口｜青岛机场联合美团正式上线登机口智能送餐服务

刚刚，谷歌诺贝尔奖得主被Anthropic收编

小红书计划本月底前秘密在港递表，估值曾达310亿美元

消息称小红书拟秘密赴港递交IPO申请

在线观看人数暴涨55倍，世界杯直播创造小红书直播新纪录

倒闭半年渝见小面店被告侵权案刚刚撤诉

泡泡玛特首款自研手游《梦想家园》将停运

对话美的集团张小懿：一年Token花几千万，买了几千张卡

SpaceX夜盘大涨16%

被曝拖欠赞助费与员工薪资？匹克董事长回应

重庆小面协会：重庆小面是地域公共品牌，不支持单一企业独家垄断