当前位置: 首页 » 资讯 » 新科技 » 正文

CVPR 2026|1分钟单图变4D视频!AI看图直接脑补物理规律

IP属地 中国·北京 机器之心Pro 时间:2026-04-08 14:18:53



让静态的图片变成三维物体并动起来已经不算新鲜,但如果让图片不仅动起来,还能完美遵循现实世界的物理规律(比如蛋糕的Q弹、沙堆的散落、石雕的坚硬)呢?

以往,为了让模型懂“物理”,研究者们往往需要耗费数小时进行缓慢的逐场景优化。而现在,来自北京理工大学和理想汽车等机构的研究团队提出了一种全新框架PhysGM只需输入单张图片,1分钟内即可生成高保真、高物理真实性的4D动态视频!

彻底告别耗时的SDS(分数蒸馏采样),PhysGM 巧妙地将大语言模型中广泛使用的DPO(直接偏好优化)引入基于物理仿真的重建生成领域,实现了端到端的快速前馈推理。



目前,该工作已被计算机视觉顶会CVPR 2026接收,相关代码已开源:

论文链接:https://arxiv.org/abs/2508.13911项目主页:https://github.com/Hihixiaolv/PhysGM代码开源:https://hihixiaolv.github.io/PhysGM.github.io/

效果惊艳:

蛋糕、石头、沙堆,万物皆可“物理模拟”


废话不多说,先看效果。

给模型喂一张蛋糕的静态图片,PhysGM 不仅在几秒内重建了它的3D高斯表示,还能立刻推断出它的物理材料、杨氏模量和泊松比。经过极短时间的MPM(物质点法)物理引擎仿真,一个栩栩如生、掉落在地Q弹十足的蛋糕就诞生了:



换成石头、沙子、陶瓷或橡胶等各种不同材料,PhysGM 同样能精准拿捏不同材质的物理特性。石头砸下的坚硬、沙堆落地的崩散和橡胶落地的形变,全都在1分钟内一气呵成:



同时PhysGM还支持多物体,带背景的照片和不同受力场景的仿真生成:



相比于目前主流的优化型基线模型(如 OmniPhysGS, DreamPhysics),PhysGM除了在速度上全面碾压,在各个评价指标上也都实现了超越。



痛点与破局:

为什么我们要抛弃“逐场景优化”?


近年来,基于 3D Gaussian Splatting (3DGS) 的静态场景生成取得了巨大进展。但到了4D(动态)特别是包含复杂物理交互的生成时,目前的范式遇到了巨大的瓶颈:太慢了!

现有的方法通常严重依赖预先重建的3DGS,然后利用视频生成模型的先验知识,通过 SDS梯度回传到可微物理引擎中,对材质属性进行数百上千次的迭代优化。这导致生成一个物理场景往往需要数十分钟甚至十几个小时!此外,简单地将3DGS与物理模块拼接,往往会忽略图像本身包含的丰富物理线索。

为了打破这个计算瓶颈,北理工与理想汽车的团队提出了一个灵魂拷问:我们能不能像人眼一样,看一眼图片,就直接“前馈”出它的3DGS表示和物理属性?PhysGM应运而生:



PhysGM 的核心架构是一个基于 Transformer 的强大网络,它巧妙地设计了两个并行的 Decoder

DPT Head:负责预测初始的 3D Gaussian 场景参数(几何与外观)。

Physics Head:负责预测物体物理属性(物体、材料杨氏模量、泊松比)的概率分布。

在获得这些参数后,只需不到3秒,系统就会将它们输入到 MPM(物质点法)模拟器中,直接渲染出最终的动态视频。

核心创新:

物理生成界的“RLHF”,引入DPO对齐物理直觉


为了让模型不仅“懂物理”,而且生成的动态效果符合人类的视觉直觉,研究团队提出了一个新颖的两阶段训练范式

第一阶段(大规模监督预训练):模型在海量数据上联合预测 3DGS 和物理参数,建立起强大的生成先验,彻底摆脱了对多视角图像预重建的依赖。

第二阶段(基于 DPO 的偏好微调):这是整个工作最亮眼的设计之一。在缺乏可微物理引擎支持的情况下,如何进一步提升视频质量?团队使用了强化学习的方法——直接偏好优化 (DPO)

系统会从模型预测的概率分布中采样出不同的物理参数,并在MPM中进行模拟渲染。然后,利用 SAM-2 和 CoTracker-3 提取轨迹并与真实物理视频计算感知距离。距离小的被标记为“Winner”,距离大的标记为“Loser”。通过这种不需要物理引擎可微的偏好驱动训练,PhysGM 被引导向生成更加具有物理合理性和时间连贯性的视频序列。



基础设施:

构建5万规模的 PhysAssets 数据集


巧妇难为无米之炊。为了支撑前馈模型的训练,当前社区极度缺乏同时包含“3D资产 + 物理属性标注”的大规模数据集。

为此,研究团队还制作了相应的PhysAssets数据集

他们整合了 Objaverse, OmniObject3D, HSSD等数据集,利用多模态大模型 Qwen3-VL 进行精准的材质分类,并通过预定义的物理描述(杨氏模量/泊松比)匹配参数。最终,使用基于物理的仿真框架生成了超过50,000个高质量的“物体-物理参数”对,并有一部分含有对应参考视频的子集,为该领域的未来研究提供了宝贵的“燃料”。

压倒性的性能优势:

从12小时到不到1分钟


在定性和定量的对比中,PhysGM 展现出了惊人的优势。

在面对5种不同材质的测试中,无论是在CLIPsim(视觉与文本物理描述语义一致性)还是UPR(用户偏好率)指标上,PhysGM 均大幅领先现有的 SDS-based 方法。

更夸张的是在做到泛化性和效果惊艳的同时还有计算成本的降低。对比此前的 SOTA 方法:

OmniPhysGS:生成时间 >12 小时DreamPhysics:生成时间 >0.5 小时PhysGM:生成时间 < 1 分钟!

这种质的飞跃,真正让物理驱动的 4D 生成具备了走向大规模实际应用(如具身智能体、自动驾驶仿真、交互式VR)的可能。

总结

PhysGM 是首个能够在极短时间(单次前馈+模拟)内从稀疏输入中生成带物理规律4D动态场景的框架。它不仅解决了物理生成的效率瓶颈,更开拓了一条利用大规模数据集和 DPO 对齐技术进行 3D/4D 物理学习的新路径。

随着模型在端到端生成和物理保真度上的不断突破,我们有理由相信,未来的虚拟世界将不再只是看起来真实,而是“动”起来和真实世界一模一样”。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。