![]()
从原始视频出发,无需人工介入,自动生成 3D 重建、深度、2D mask、3D 框、实例描述、3D grounding 和空间问答。Holi-Spatial 试图把「空间智能」的数据生产,推进到自动化、可扩展的新阶段。
![]()
Holi-Spatial 3D grounding 展示。从视频流中恢复场景几何并定位开放词表目标。
![]()
Holi-Spatial 整体亮点。自动化管线从原始视频流生成高质量 3D 空间标注,并进一步提升 VLM 空间能力。
近年来,大模型已经在图像理解、OCR、多图推理、视频问答等任务上快速迭代。但当问题进入真实三维世界,模型仍然常常「看得见,却想不清楚」:物体在左前还是右后?相机移动了多远?两个物体的空间关系是什么?同一个物体换一个视角后还能否稳定定位?
这些能力背后有一个绕不开的问题:空间智能需要大规模、细粒度、带几何约束的 3D 数据。
现有做法通常依赖 ScanNet、ScanNet++ 等少量人工标注 3D 数据集,再在其上生成 QA。这样做能推动研究,但也带来两个限制:一是数据规模受限,二是人工采集和标注形成的领域分布较窄,模型很难真正面向开放真实场景泛化。
针对这一瓶颈,来自上海人工智能实验室、西北工业大学、上海交通大学等机构的研究团队提出了Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence,并获ICML 2026 Oral。
论文提出一个全自动空间数据构建框架 Holi-Spatial,能够从原始视频流出发,自动完成高质量 3D 几何重建、开放词表语义感知、3D 实例提升与场景级精修,并进一步构建出 Holi-Spatial-4M:一个包含 400 万级空间标注的大规模 3D 语义数据集。
![]()
论文地址:https://arxiv.org/abs/2603.07660项目主页:https://visionary-laboratory.github.io/holi-spatial/代码仓库:https://github.com/Visionary-Laboratory/Holi-Spatial
概述
Holi-Spatial 把原始视频自动转化为可训练空间智能模型的多层级监督数据,覆盖从几何重建到语义标注、从 3D grounding 到空间问答的完整链路。
更关键的是,它不是只做一个单点任务,而是形成了一个自动化数据飞轮,团队基于如今各种基座模型的能力增强尝试使用全自动流程:视频进入,3D 场景和空间语义标注出来;数据规模继续扩大,模型的 3D 空间理解能力也随之提升。
为什么空间智能缺数据?
空间智能不是简单的「图片里有什么」。
它要求模型理解真实世界中的三维结构和关系,例如:
相机从视角 A 到视角 B 主要向哪个方向移动?某个椅子在当前观察者的左前方还是右后方?桌子和沙发之间的距离是多少?目标物体在不同视角下是否能被稳定定位?一个开放词表描述对应的物体,能否在 3D 空间中准确框出来?
这些问题既需要语义理解,也需要几何一致性。仅靠单张图片或普通视频字幕,很难让模型学到可靠的 3D 空间概念。
过去,研究者往往基于人工采集的 3D 数据集构造空间 QA。问题是,这类数据集成本高、类别有限、规模难扩展。例如一些经典室内 3D 数据集的语义类别是封闭的,无法覆盖真实世界中长尾、细粒度的物体描述。
Holi-Spatial 的出发点是:如果我们能把网络和公开数据中的原始视频,自动转化为高质量 3D 空间监督,空间智能的数据瓶颈就有机会被系统性缓解。
Holi-Spatial 怎么做?
Holi-Spatial 的核心是一个三阶段自动化数据构建管线。
![]()
Holi-Spatial 数据构建框架。整体流程包括几何优化、图像级感知、场景级精修,并最终生成 Holi-Spatial-4M 用于下游训练。
第一阶段:几何优化,把视频变成高质量 3D 结构
系统首先从原始视频中恢复相机内外参,并利用空间基础模型得到初始稠密点云和深度先验。
但直接使用前馈深度模型会遇到一个典型问题:多视角投影时容易出现噪声、漂浮点和几何不一致。为此,Holi-Spatial 引入 3D Gaussian Splatting 进行逐场景优化,并加入几何正则,使深度在多视角下更加一致。
这一步的目标不是单纯追求视觉上好看的重建,而是为后续 3D 框生成、实例聚合和空间 QA 构造提供可靠几何基础。
第二阶段:图像级开放词表感知,把 2D 语义提升到 3D 候选
在每个视频场景中,系统采样关键帧,并使用 VLM 生成开放词表类别。为了让不同帧中的类别更稳定,Holi-Spatial 维护一个动态类别记忆,让模型优先复用历史帧中已经识别过的语义标签。
随后,系统使用 SAM3 生成开放词表实例分割 mask,再结合优化后的 3DGS 深度,将 2D mask 反投影到三维空间,形成初始 3D 物体候选。
论文中特别处理了一个常见难点:2D mask 边界误差和深度边缘噪声会导致 3D 框不准。Holi-Spatial 通过 mask 腐蚀和 mesh-guided depth filtering 过滤不可靠边缘点,从而减少 3D 漂浮点对物体框的干扰。
第三阶段:场景级精修,合并、验证、描述实例
初始 3D 候选通常会有重复、碎片化和低置信度的问题。Holi-Spatial 进一步在场景级进行粗到细精修:
1. 多视角合并:根据类别和 3D IoU 合并跨视角重复实例。
2. 地面 / 重力对齐:让 3D 框更加符合真实场景中的垂直方向。
3. 置信度过滤:高置信度实例保留,低置信度实例删除。
4.VLM Agent 复核:对边界置信度实例,用带有 zoom-in 和重分割工具的 VLM Agent 再次验证。
5. 实例描述和 QA 生成:对最终实例生成细粒度 caption,并构造 3D grounding 与空间 QA 样本。
这套流程最终输出的不只是一个重建模型,而是一组可直接用于训练空间智能模型的多模态监督。
Holi-Spatial-4M:400 万级空间标注
基于上述自动化管线,作者构建了 Holi-Spatial-4M。
数据来自 ScanNet、ScanNet++ 和 DL3DV-10K 等多源视频场景。与传统封闭类别 3D 数据不同,Holi-Spatial-4M 依托 VLM 的开放世界知识,能够覆盖更长尾、更细粒度的室内物体类别。
![]()
Holi-Spatial-4M 数据统计,包括开放词表物体分布、不同来源场景占比,以及空间 QA 任务类型分布。
实验结果:数据质量和训练增益都显著
Holi-Spatial 首先在数据构建质量上进行了验证。作者在 ScanNet、ScanNet++ 和 DL3DV-10K 中随机采样场景,并额外进行人工标注作为评估 GT,比较深度、2D 分割和 3D 检测质量。
![]()
多视角深度可视化对比。相比 LangSplat、M3-Spatial、Depth-Anything-V3 等方法,Holi-Spatial 生成的点云更干净,漂浮点和重影更少。
![]()
表 1:Holi-Spatial 在 ScanNet、ScanNet++ 和 DL3DV-10K 上的数据构建质量评估。表格对应论文 Table 2,对比深度 F1、2D 分割 IoU 和 3D 检测 AP25/AP50。
从表 1 可以看到,Holi-Spatial 在三个数据源上同时提升几何、2D 语义和 3D 检测质量:在 ScanNet++ 上,Depth F1 达到 0.89,2D Seg IoU 达到 0.64,3D Det AP25/AP50 达到 81.06/70.05;在 ScanNet 上对应指标为 0.98、0.66、76.60/67.00;在 DL3DV-10K 上也达到 0.78、0.71、62.89/52.67。相比 M3-Spatial、LangSplat、SA2VA、LLaVA-3D 等基线,Holi-Spatial 不只在单一任务上领先,而是在深度、分割和 3D 框三个环节都保持更稳定的整体质量。
![]()
开放词表 2D 实例分割可视化。Holi-Spatial 在边界完整性、遮挡场景和细粒度类别识别上表现更稳定。
![]()
ScanNet++ 上的 3D 目标检测可视化。相比 Scenescript、LLaVA-3D、SpatialLM,Holi-Spatial 预测的 3D 框更紧凑,类别更准确。
更重要的是,这些数据确实能提升 VLM 的空间能力。
作者使用 Holi-Spatial-4M 对 Qwen3-VL 系列模型进行微调。在空间 QA 任务上:
![]()
表 2:Holi-Spatial-4M 微调后,Qwen3-VL 系列模型在 MMSI-Bench, MindCube,ViewSpatial 和 SparBench-tiny 上的空间 QA 结果。
在 ScanNet++ 3D grounding 任务上:
![]()
表 3:Holi-Spatial-4M 微调后,Qwen3-VL-8B 在 ScanNet++ 3D grounding 任务上的结果。
这里的 AP15、AP25 和 AP50 分别对应不同 IoU 阈值下的 3D grounding 平均精度,阈值越高,对预测 3D 框的位置、尺寸和空间对齐要求越严格。可以看到,原始 Qwen3-VL-8B 在 AP50 上为 13.50,经过 Holi-Spatial-4M 微调后提升到 27.98,增加 14.48 AP 点;在 AP15 和 AP25 上也分别从 19.82、16.80 提升到 35.52、31.94。
这说明 Holi-Spatial-4M 带来的提升并不只来自语言问答能力,而是让模型更好地把文本指令、图像观察和 3D 空间位置对齐起来。论文中将这种提升归因于 1.2M 3D grounding 样本提供的强监督:相比主要依赖单视角或锚定视角训练的基线模型,经过 Holi-Spatial 数据训练后的模型在跨视角、不同空间深度和遮挡场景下更容易定位到正确物体。
![]()
Holi-Spatial 构建的 10 类空间 QA 样例,覆盖相机运动、相机 - 物体关系、物体 - 物体关系和尺寸测量等任务。
这些 QA 并不是简单的物体识别题,而是围绕空间关系设计了 10 类问题:相机旋转、相机移动方向、相机移动距离、相机 - 物体方向、相机 - 物体距离、全局坐标系下的相机 - 物体距离、物体 - 物体距离、物体尺寸测量、局部观察者坐标系下的物体 - 物体方向,以及全局坐标系下的物体 - 物体方向。这样的设计让模型同时学习自我运动、视角变化、物体间相对位置和尺度估计。
论文还提到,训练这些 QA 数据对 MindCube 和 MMSI-Bench 中的视角切换、第一人称空间想象等问题尤其有帮助。同时,Holi-Spatial 会先用 VLM 描述物体外观,再把外观描述作为问题中的指代表达,这相当于把「看清物体」和「在 3D 空间中定位物体」绑定起来,进一步增强模型在空间问答中的视觉 grounding 能力。
![]()
3D grounding 可视化。经过 Holi-Spatial 数据微调后,模型能在多视角和不同空间深度下更准确定位查询物体。
一个值得关注的点:自动化数据飞轮
Holi-Spatial 最值得关注的地方,不只是做出了一个大数据集,而是把 “空间数据生产” 这件事变成了一个自动化流程。
这点对于空间智能很关键。
如果模型要进入机器人、AR、具身智能、场景编辑和真实世界导航等应用,靠有限人工扫描数据很难覆盖足够多的环境、物体和空间关系。原始视频则更容易获得,数量也远大于传统 3D 标注数据。
Holi-Spatial 证明了一个方向:通过组合当前强大的几何模型、VLM、分割模型和 3D 优化方法,原始视频可以被自动转化成结构化、可训练、可评估的空间智能数据。
这也意味着,未来空间智能模型的提升可能不只来自更大的模型参数,还来自更强的数据构建系统。
也有哪些限制?
论文也讨论了当前系统的局限。
首先,Holi-Spatial 依赖多个上游模型和逐场景优化,计算成本仍然较高。其次,在视角有限、运动模糊、严重遮挡、动态物体较多的视频中,几何恢复和实例标注仍可能退化。开放词表语义标注也可能继承基础模型的偏差或错误,因此更稳健的验证机制和不确定性估计仍是未来方向。
不过,作为一个自动化空间数据构建框架,Holi-Spatial 已经展示出明确潜力:当原始视频数据继续增长,空间智能模型也可以获得更大规模、更细粒度、更接近真实世界的训练信号。
作者与机构
论文作者包括 Yuanyuan Gao、Hao Li、Yifei Liu、Xinhao Ji、Yuning Gong、Yuanjun Liao、Fangfu Liu、Manyuan Zhang、Yuchen Yang、Dan Xu、Xue Yang、Huaxi Huang、Hongjie Zhang、Ziwei Liu、Xiao Sun、Dingwen Zhang、Zhihang Zhong。
机构覆盖上海人工智能实验室、西北工业大学、上海交通大学、北京大学、南洋理工大学、北京航空航天大学、四川大学、清华大学、香港中文大学、复旦大学、香港科技大学等。
Paper: https://arxiv.org/abs/2603.07660
Project: https://visionary-laboratory.github.io/holi-spatial/
Code: https://github.com/Visionary-Laboratory/Holi-Spatial





京公网安备 11011402013531号