智东西
编译 程茜
编辑 心缘
AI能听懂你的“话外音”了?
智东西7月8日消息,近日,阿里通义实验室开源多模态推理模型HumanOmniV2。
HumanOmniV2通过引入强制上下文总结机制、大模型驱动的多维度奖励体系,以及基于GRPO的优化训练方法,实现了对多模态信息的全面理解,使得模型不会错过图像、视频、音频中的隐藏信息,一定程度上规避其在全局上下文理解不足和推理路径简单上的问题。
如在生成最终答案前,模型会输出一个标签内的上下文概括,系统性分析多模态输入内容中的视觉、听觉、语音信号,为后面的推理过程提供依据。如下图提问“女人为什么翻白眼”,HumanOmniV2基于视频、音频等信息给出正确答案“她的翻白眼更像是对一个潜在敏感话题的夸张、俏皮的反应,非对其他人表示不满”。
现阶段HumanOmniV2已开源。阿里通义团队还推出包含633个视频和2689个相关问题的评测基准IntentBench,在此之上,HumanOmniV2准确率达到69.33%。
论文:https://arxiv.org/abs/2506.21277
GitHub:https://github.com/HumanMLLM/HumanOmniV2
魔搭社区:https://modelscope.cn/models/iic/humanomniv2
Hugging Face:https://huggingface.co/PhilipC/HumanOmniV2
IntentBench评测基准:https://huggingface.co/datasets/PhilipC/IntentBench
一、结合上下文、音视频背景信息,读懂人物的“话外音”
根据上面视频的内容,当询问模型“视频中的人过去一年中最难忘的经历是什么?视频中的人在回答问题时是否在撒谎?”时。
基于GRPO的模型,通过演讲人的肢体语言、面部表情判断其没有说谎,HumanOmniV2而是结合了视频中人物所处的环境、语气,并结合视觉、听觉因素综合判断,得出了他没有说出全部最难忘经历的答案。
第二个视频是一段电视采访节目,提问模型“这两个人的关系”并给出了4个选项。
HumanOmniV2在推理过程中,会捕获多模态输入中更为细粒度的视频和音频线索,如“黑裙女子以平静温和的语气回应”、“刻意放慢说话速度以缓解紧张情绪”、“浅蓝色衬衫的男人用快速而兴奋的语气说话”等。
第三个视频让模型判断视频中男子的主要情绪。
HumanOmniV2的回应是无奈、愤怒,基于GRPO的模型的回答仅有愤怒。HumanOmniV2通过结合视频中人物的叹息、紧张表情,判断他除了愤怒还处于一种无法处理当前事态的无奈状态。
二、多模态模型推理两大瓶颈:上下文理解不足、无法深度逻辑推理
现有多模态推理模型存在两个问题:全局上下文理解不足和推理路径简单,缺乏深度逻辑推理问题。
上下文理解不足是指模型误解多模态上下文,从而生成错误答案;推理路径简单问题是指模型忽略多模态输入中的关键线索,直接处理查询而不考虑多模态信息。
例如在下面场景中,多模态大模型只听到了“可以做朋友”,忽略了“头巾=不是基督徒=不约会”逻辑链。
此外,在判断男士情绪时,模型基于“可以做朋友”这句看似积极的话,忽视潜在的视觉、听觉线索:男士可能出现的嘴角下垂/眼神回避、女士说“可能不行”后的3秒沉默、人类社交中的矛盾信号。
受DeepSeek-R1启发,诸多多模态模型的推理采用GRPO算法,也就是给定一个多模态输入和一个问题,促使多模态模型生成一个可得出答案的推理链,然而直接采用GRPO的模型会严重依赖文本推理,忽略丰富的多模态线索及其全面的理解。
三、大模型驱动的多维度奖励,打造全模态推理训练数据集、基准测试
在此基础上,阿里通义团队要求模型基于对多模态输入中全局上下文的精确理解进行推理。
基于此,模型首先在输出上下文信息,这可以防止模型绕过关键的多模态输入信息,并为其随后的推理过程提供依据。例如,当有人说“no”时,只有在完整的上下文中,模型才能确定它是拒绝、玩笑还是反向请求。
为了确保模型准确理解多模态上下文信息,研究人员还引入了大模型驱动的多维度奖励机制,包括上下文奖励、格式奖励、准确性奖励和逻辑奖励。
上下文奖励是让大模型比较参考上下文和模型输出之间的一致性评估,指导模型提高对上下文的理解,格式奖励确保其输出内容符合结构化要求,准确性奖励用来提升模型回答的正确率,逻辑奖励是评估推理过程是否整合了多模态信息并结合了逻辑分析技术,如反射、演绎和归纳。
同时,阿里通义团队基于Qwen2.5-Omni-Thinker架构,对GRPO进行了多项改进:
包括引入词元级损失(Token-level Loss),解决长序列训练中常见的不平衡问题;移除问题级归一化项,避免不同难度样本之间的权重偏差;应用动态KL散度机制,在训练初期鼓励探索,在后期稳定收敛,提升模型的泛化能力和训练稳定性。
在数据方面,多模态模型进行推理的挑战还在于缺乏大规模人工标注推理数据,因此,阿里通义团队开发了一个全模态推理训练数据集,融合了图像、视频和音频等任务的上下文信息。
另一大挑战是缺乏相关基准来有效评估其性能,为此研究人推出推理全模态基准测试IntentBench,旨在评估模型理解复杂人类意图和情感的能力。它包括633个视频和2689个与视频中的听觉和视觉线索相关的问题。这个基准需要模型对全球背景有深刻的理解和推理、仔细的观察和复杂的社会关系。
在此基础上,阿里通义团队开源的HumanOmniV2,它在开源全模态模型中取得了最佳性能,在一般感知场景测试集Daily-Omni上得分为58.47%,在一般感知场景测试集WorldSense上得分为47.1%,在IntentBench上得分为69.33%。
结语:阿里继续开源,为AI理解人类复杂意图提供参考
阿里通义团队在多模态模型方面的探索,降低了模型在推理过程中出现错误的可能性,为AI在理解和建模人类复杂意图方面提供了参考。但其论文也提到,这种响应格式可能限制模型在接下来的思考过程中纠正上下文信息的能力,再加上其基于7B模型进行实验,有无法在参数规模更大的模型中保证一致性的风险。
未来随着上下文和预训练规模的扩大,阿里通义团队将探索在推理过程中对多模态信息进行多重验证的方法,以提高准确性。