本文作者来自蚂蚁集团的多模态认知团队和西安交通大学的人机混合增强智能全国重点实验室。团队持续围绕多模态大模型、内容生成和全模态交互等前沿方向进行研究,致力于构建领先的大模型基础能力和创新的交互应用体验。
在科幻作品描绘的未来,人工智能不仅仅是完成任务的工具,更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中,多模态大模型已展现出一定潜力,可以接受视觉、语音等多模态的信息输入,结合上下文做出反馈。
然而,真正融洽的沟通,需要 AI 可以像人类一样从外貌、声音乃至表情动作中感知对方的个人特点和情绪状态,理解深层诉求,进而做出恰当回应。
现有工作对这类以人为中心场景的深入研究还较少见,既缺乏细粒度的评估,也限制了相关能力的优化。这导致在许多交互应用中「AI 感」依然常见,AI 助手们听得懂语音却读不懂情绪,能回答问题却不理解用户的诉求,纵有一身本领却无法完整表达。
为了填补这一空白,蚂蚁集团与西安交通大学联合提出并开源了 HumanSense,包含一个专为「理解与交互」设计的全模态评估基准 HumanSense Benchmark,以及一个支持视听融合思考的全模态推理模型HumanSense OmniReasoning,论文主要包括:
细粒度评测:对人类交互过程进行深度拆解,从基础感知、复杂感知、上下文理解、反馈策略四层能力阶梯构建了 15 项难度递增的评估任务,共计 3882 个源于真实数据的问答对。其中交互数据覆盖了面对面交流、文字聊天以及电话访谈等多模态场景,系统地衡量了大模型从「看见听见」到「理解思考」,再到「恰当回应」的综合能力。
全模态消融:在能力评估上,综合对比了前沿的视觉、语音及全模态大模型,发现即使 GPT-4o 等顶尖模型在 HumanSense 上仍与人类表现有近 30% 的差距,能综合感知视听信息的全模态模型在高阶任务上有明显优势。全模态消融实验进一步明确了音、视、文信息在各项任务中的贡献度。在社会关系、交流和谐度等任务上,增加音频输入带来了远超纯视觉输出的表现。证明了语音是交互中不可或缺的信息维度。
全面思考:在优化策略上,作者提出了融合全模态感知的思考能力是提升交互表现的关键,并设计了多阶段模态、模态递进的强化训练方式,可以让模型不仅局限于图文推理,在语音、视频输入上均有效激发深度思考能力。全模态推理模型处理高阶问题时展现出结构化的思维方式,证实了推理拓展并非数理任务的专属,也是交互体验的助推剂。
目前,该项目以及相关配套工作已在 GitHub 和 HuggingFace 开源,希望能吸引社区更多关注多模态大模型在以人为中心的交互场景的潜力,推动 AI 交互体验的革新。
论文标题:HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs项目地址:https://github.com/antgroup/HumanSense论文地址:https://arxiv.org/abs/2508.10576配套工作:https://digital-avatar.github.io/
图 1:全模态推理模型可以在音视文输入上均有效激发推理能力,感知对方的特点和情绪,结合上下文深度思考,从而做出恰当反馈
核心亮点
「从感知到反馈」:构建 4 层认知阶梯,模拟人类交互中的思维演进
多模态大模型能力的进化是随着评估范围的扩增循环演进的,从早期的图文理解、视频理解等基准全面提升了模型的感知能力,到后来复杂推理、幻觉控制等基准的加入让模型思考深度提升,能力边界扩大。
然而,在全模态交互这个能充分发挥多模态大模型特性的重要场景,相关的研究还比较少见。已有的工作多聚焦在以文本为主的交互体验提升,和以复杂图文理解为目的推理增强,缺乏结合全模态感知、推理增强、以及交互优化的综合思考。
因此,作者提出了 HumanSense,模拟了人类交互中的思维演进过程,设计了对应的任务体系,包含:
L1 & L2(感知层):和谐的交互来自对视觉、语音等信息的细粒度的感知。L1 层的任务重点关注这些单模态、表层信息的感知,例如人物外貌、表情识别、手势理解等。在 L2 层级,任务则升级为多模态、长时程的复杂感知,例如需要结合声音、动作以及长上下文信息综合判断的异常行为识别,以及需要结合音视频综合判断的说话人识别等。
L3(理解层):基于模型感知到的多模态信息,L3 层评估模型能否理解交互内容背后的深层信息。包括需要从语气、神情、谈话内容综合判断的社会关系识别,需要结合微表情、语音停顿、肢体动作推测的谎言检测等。该层级要求模型能融合不同模态感知进行思考,理解需要进一步推断的深层关系。
L4(反馈层):最为整个交互链条的最后一环,L4 层评估了模型是否可以在复杂的交互场景中生成恰当、共情的回复。数据源自面对面访谈、在线文字聊天、语音访谈等不同模态的真实记录。例如,在心理咨询任务中,模型需要扮演心理医生,根据多轮心理咨询上下文,充分了解对方的情绪和处境,选择专业性且温暖的回复语言。在情感策略任务中,模型需要结合语音和视频充分感知交互对象的情绪状态,进而根据交谈内容选择合适的情感反馈。
图 2:HumanSense 的任务示例,通过层次递进的任务设计和模态细分的评估任务考查了从感知到交互的多个能力维度
「三位一体」:音频是情感理解的密钥,「视觉 + 听觉 + 文本」相辅相成
作者对包括 GPT-4o、InternVL3、Qwen2.5-Omni 在内的先进的视觉、语音及全模态大模型进行了评测。人类受试者在 HumanSense 子集上取得了 87.5% 的平均准确率,而表现最好的 Qwen2.5-Omni-7B 为 57.8%,详见表 1 和图 3。
领先的视觉模型(InternVL3 等)在 L2 和部分 L3 任务中表现不错,说明较强的长视频记忆和理解能力对感知维度帮助较大。在 L3-L4 的高阶任务中,所有视觉模型都在 40-60 之间,说明复杂任务中纯视觉信息已难以提供足够的判断依据。
全模态模型得益于增加了音频的输入,在 L3、L4 两类高阶任务中的表现明显优于纯视觉模型。特别是在谎言检测(LD)等任务甚至超越了人类水平,更敏锐的发现了真相。对于语音理解和交互场景,电诈识别(FR2)、心理咨询(PC)任务上全模态模型(Qwen2.5-Omni)指标优于语音大模型(Qwen2-audio),体现了模态之间的相互促进作用。
表 1:支持视觉、音频和文本输入的全模态模型在高阶理解和交互任务上有明显优势。
全模态消融实验进一步明确了音视文三种模态在各类任务中的作用。如图 4,在社会关系(RR)、对话和谐度(RR)、亲密度(FR)等视频级交互任务上,为模型增加音频输入(V+A)能带来远超纯视觉(V)的表现。这证明了人际交互中语音所包含的对话内容、语气语调是不可或缺的重要信息。在欺诈检测(FR)和心理问答(PC)两个音频交互任务上,增加文本输入(A+T)也因提供了更丰富的上下文信息而提升模型的表现。
图 3:主流全模态模型和视觉语言模型与人类评估的对比
图 4:全模态模型和语音大模型在全模态消融上的表现
推理是通往「理解和共情」的桥梁:从全模态感知到深度思考
基于模型评估和全模态消融,作者进一步提出了融合全模态感知的思考能力是提升交互表现的有效方法,并验证通过两种方式进行验证。
全模态强化训练:作者提出一种多阶段、模态渐进的强化学习方式,使用 GRPO 算法对 Qwen2.5-Omni 模型进行推理后训练,教会 AI 结合不同模态的感知线索「一步步想清楚」。
视觉先行,学会「看人」:输入纯视频帧与问答对,建立基于视觉感知的推理能力,学会对面部特征、肢体语言等判断能力关键个人特点。
语音增强,学会「听语气」:输入音频片段与问答对,建立基于听觉感知的推理能力,学会捕捉语音中的情感信号。
边听边看,综合判断:输入完整的音视频上下文,让模型学会融合多模态感知进行思考和回答。
免训练提示词:作者发现在高阶理解和交互任务上,通过全模态强化训练激发的成功推理内容展现出了相似的思维模式,遵循「感知关键特征和情绪 - 理解上下文 - 思考与回应」的链条。我们利用这种思维模式构建了简单的提示词,发现也可以有效提升评估指标,证明了推理拓展在交互场景的有效性。
图 5:全模态推理模型在解决深层理解和交互任务时可以感知对方的个人特征、情绪状态,结合上下文进行深度思考,进而做出恰当反馈
表 2:完整三阶段强化训练后大多数任务都获得了最佳表现
两种方法的指标如表 2 所示。对于全模态强化训练,第一阶段的视觉推理训练对以视觉感知为主的 L1 类任务已产生明显效果。心理咨询(PC)、电诈识别(FR2)等语音任务经过第二阶段语音推理训练也获得了明显提升。完整三阶段强化训练后大多数任务都获得了最佳表现。PE 代表在 base 模型上仅使用提示词模版推理的评估结果,在熟悉度(FR1)、欺诈识别(FR2)、关系识别(RR1)等任务上也带来了有效提升。
从「工具」到「伙伴」
HumanSense 旨在挖掘多模态大模型的潜力,探索交互应用的边界。全模态推理模型有潜力真正扮演人工智能的「大脑」的角色,与丰富的下游能力相结合,打造会「察言观色能共情」的全模态交互伙伴。
具体来说,全模态推理模型在交互应用中可以不只局限于直接输出文本回复,而是统一规划并输出包含主题、情感策略、表情与肢体动作等相互关联的结构化内容。例如如下结构:
其中「主题」和「情感策略」会在推理过程中增强「文本回复」等细节表达的准确性,语音、表情、动作等策略可以作为控制信号输入下游能力模块,提供可听可见的真实交互体验。蚂蚁集团的研究团队近期陆续发布了一系列配套的生成工作,可以实现对下游数字形象、语音的生成内容的精细控制,为有情感有表现的全模态交互打下基础。
例如,近期已开源的 Ditto-talkinghead 项目(图 6)通过在扩散模型的生成过程中解耦了面部运动和图像渲染,实现了基于单张图像的可控说话人生成。该项目是首个支持实时视频生成的开源实现,为低延迟实时交互应用的提供了底层能力支持,也吸引了很多社区讨论。VersaAnimator 项目(图 7)实现了在语音驱动说话人生成同时,通过文本描述来控制视频中人物的肢体动作,让数字形象不仅能展现表情变化,还可能通过肢体动作进一步表达语义和传递情感。这些配套项目有潜力推动大模型交互应用从单一的任务工具逐步进化为有温度的生活同伴,为用户提供有价值的情感支撑和生活支持。
图 6:Ditto-talkinghead-表情可控的说话头像实时生成
项目地址:https://digital-avatar.github.io/ai/Ditto/
图 7:VersaAnimator-支持文本动作编辑的多尺度说话人视频生成
项目地址:https://digital-avatar.github.io/ai/VersaAnimator/