该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生蔡鑫豪,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解与生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。
本文主要介绍来自该团队的最新论文 InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects。
该研究首次提出了含可移动物体的 3D 场景中,基于文本的人 - 物交互生成任务,并构建了大规模数据集与创新方法框架,在多个评测指标上均取得了领先效果。现有的人 - 场景交互数据集存在交互类别不足的问题,并且通常只考虑与静态物体的交互。随着可移动物体的引入,任务变得更具挑战性:模型不仅需要准确识别目标交互物体,还要学会与不同类别和尺寸的物体交互,并避免物体与场景之间的碰撞。
为应对这些挑战,该研究提出了一个全新的方法框架:首先利用三维视觉定位模型确定目标交互物体;然后提出手 - 物联合可达图学习,用于预测不同手部关节与物体部位的接触区域,从而实现多样化物体的精确抓取与操作;最后,通过局部场景建模与碰撞约束优化交互,确保动作物理合理,避免物体与场景之间的穿模。
大量实验表明,该方法在生成物理合理且符合文本描述的交互方面优于现有方法。
目前该研究已被 ACMMM 2025 正式接收,相关代码与模型已全部开源。
论文标题:InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects论文链接:https://arxiv.org/abs/2509.23612代码链接:https://github.com/Cxhcmhhh/InteractMove项目主页:https://cxhcmhhh.github.io/InteractMoveProject/
打破现有瓶颈:交互单一与物体静态的局限
在三维场景中生成人体动作是一个快速发展的研究方向,在虚拟现实(VR)、增强现实(AR)、电子游戏等应用中具有重要意义。近年来,基于自然语言描述的人体动作生成引起了越来越多的关注。然而,大多数已有工作要么关注语言驱动的 “人与孤立物体” 的交互,忽略了周围场景的影响;要么研究 “人与场景” 的交互,但没有显式考虑可移动物体。这导致生成的交互在表现力和实际应用性上受到限制,因为现实世界中的物体往往嵌入在复杂环境中,并具有多样的可达情况。
为弥补这一空白,我们提出了一项新任务:在三维场景中基于文本驱动的可移动物体交互生成。然而,在现有的人 - 场景交互数据集中,交互类别有限,可交互的物体往往是固定、不可移动的,如床和沙发。此外,从零开始人工采集一个大规模、高质量的三维数据集不仅困难,而且成本高昂。
InteractMove 数据集:可移动物体的语言驱动交互
为解决这一难题,研究团队提出了 InteractMove 数据集。该数据集通过自动对齐现有交互动作与三维扫描场景,不仅避免了从零采集的高昂成本,还具备以下三大亮点:
1)多目标与干扰:场景中包含多个可交互物体及同类干扰项,模型必须基于语言理解与空间推理才能选中正确物体;
2)多样交互类型:覆盖 71 类可移动物体和 21 种交互方式,既包括 “一手拿起苹果”,也包括 “双手抬起桌子” 等复杂操作;
3)物理合理性:动作与物体轨迹经过严格筛选,避免 “穿模” 等不符合物理规律的现象。
为了实现这三点,研究团队将数据合成划分为三个阶段:
1)可移动目标物体放置:针对每种待合成的物体,在场景中搜索适当的表面用于放置该物体。例如,将 “苹果” 放置在桌子表面,将 “包” 放在沙发表面或地面等。
2)物理一致的动作对齐:为了保证交互动作在合成入场景后,能够在保持物理合理性的前提下符合场景限制,该方法首先强制对齐手部关节高度与放置后的物体高度一致,再利用扩散模型的 “重绘” 功能,基于新的手部位置对剩余部分人体位姿进行修正。
3)基于物理规律的场景感知筛选:为了保证人体和物体的移动轨迹符合场景限制,本方法基于以下设定进行过滤:a) 要求人与物体始终在场景范围内;b) 要求足部与地面保持合理接触;c) 要求物体与人体移动轨迹不与场景发生碰撞。
图 1:数据集的部分可视化结果。包含对多样物体的不同交互;场景中存在的同类干扰项;复杂环境下的物理合理交互。
创新方法:三阶段的交互生成框架
图 2:完整的方法概览。
在方法层面,团队提出的全新框架由三大核心模块组成:
第一步,3D 视觉定位。
模型首先利用先进的三维视觉定位技术,理解文本描述,并在复杂场景中精准定位目标物体。例如,当输入为 “拿起床边桌子上的苹果” 时,系统能在多个同类物体中识别出正确目标。
第二步,手 - 物可达图学习。
为了处理物体大小、形状差异带来的交互多样性,研究者设计了 “手 - 物可达图” 模块,对手部关节与物体表面之间的细粒度接触关系进行建模。首先将物体表面与手部关节关键点的成对距离归一化后定义为可达图,显式地建模交互中的时空关键信息。这使得模型能够生成符合语义的动作策略:拿带把手的杯子时会抓住把手,而没有把手的杯子则会握住杯身;轻物体可单手操作,而重物体则需双手配合。
第三步,碰撞感知动作生成。
交互动作不仅要符合语义,还需遵守物理规律。为此,研究团队提出了基于局部场景建模的动作生成模块,将目标物体周围环境体素化为占用网格,并结合碰撞感知损失函数,在生成过程中实时约束动作与物体的相对轨迹,避免人、物体与场景之间的交叉和穿模,保证动作自然合理。
这种 “定位 — 可达图 — 碰撞感知” 的三步走设计,使模型不仅能正确理解文本,还能生成符合物理规律、语义精准且多样化的人 - 物交互。
实验结果:全面超越现有方法
表 1:InteractMove 的结果。粗体表示最优表现。
在新提出的 InteractMove 数据集上,团队的方法在交互准确性、物理合理性、多样性以及碰撞避免等所有指标上均取得了最佳成绩。其中,多样性相较最优结果提升了 18%,物理合理性提升了 14%。在跨数据集的实验中(如 TRUMANS),该方法依然保持领先,证明了其良好的泛化能力。
表 2:对方法各个组件的消融实验。
表 3:对所使用的各个物理损失的消融实验。
该方法还进行了完备的消融实验,证明了所设计使用的各个模块的有效性和必要性。
定位模块:去掉 3D 视觉定位后,模型无法准确找到交互物体,目标距离指标显著下降。
手 - 物可达图模块:去掉该模块后,动作缺乏精细的手部与物体接触关系,物理合理性明显下降。局部场景建模模块:若不建模局部环境,动作容易与场景发生穿模,碰撞率大幅上升。碰撞感知损失:接触损失能提升手部与物体的贴合度,而穿模损失能有效减少穿透现象;推理阶段引入的额外碰撞约束则进一步提高了无碰撞率。
可视化与定性结果分析:更贴近真实世界的交互体验
除了量化评估,研究团队还对方法的可视化效果进行了展示与分析。结果表明,InteractMove 能够生成符合语义、自然连贯且物理合理的人 - 物交互动作。例如:
图 3:使用提示 “一个人端沙发旁桌上的碗来喝” 生成的结果。
在指令 “一个人端沙发旁桌上的碗来喝” 下,模型生成的动作呈现出自然的低头、伸手、抓取过程,并能够协调双手动作,避免与周围场景发生穿模或不合理的交互,生成的动作不仅符合语义,还在手部接触点和物体运动轨迹上保持了高一致性。
InteractMove 在可视化效果中表现优秀:交互自然:动作衔接流畅,手 - 物接触符合人类常识,不会出现僵硬或不连贯的姿态;物理合理:物体运动轨迹与人体动作相协调,几乎无穿透或悬空等不合理现象。
定性结果进一步证明,InteractMove 不仅在数值指标上领先,而且在视觉效果上也更加贴近真实世界的交互体验。
总结:跨越静态物体限制的人 - 物交互新框架
本次在 ACM Multimedia 2025 发布的 InteractMove 工作,不仅首次提出了文本驱动的可移动物体交互生成新任务,还构建了目前规模最大的高质量数据集,并提出了融合目标定位 — 手物可达图 — 碰撞感知生成 的创新方法框架。实验结果表明,该方法在多个核心指标上全面超越现有方案,具备强大的跨场景能力。
InteractMove 的提出为虚拟现实、增强现实、数字人和机器人等应用场景奠定了坚实的基础,让 AI 在虚拟世界中实现更自然、更智能的人 - 物交互成为可能。未来,他们还将探索更大规模、更复杂场景下的人机协同和通用交互智能体的构建。