当前位置：首页 » 资讯 » 新科技 » 正文

Holi-Spatial打造400万级空间多模态数据集

IP属地中国·北京 机器之心Pro 时间：2026-06-18 22:11:17

从原始视频出发，无需人工介入，自动生成 3D 重建、深度、2D mask、3D 框、实例描述、3D grounding 和空间问答。Holi-Spatial 试图把「空间智能」的数据生产，推进到自动化、可扩展的新阶段。

Holi-Spatial 3D grounding 展示。从视频流中恢复场景几何并定位开放词表目标。

Holi-Spatial 整体亮点。自动化管线从原始视频流生成高质量 3D 空间标注，并进一步提升 VLM 空间能力。
近年来，大模型已经在图像理解、OCR、多图推理、视频问答等任务上快速迭代。但当问题进入真实三维世界，模型仍然常常「看得见，却想不清楚」：物体在左前还是右后？相机移动了多远？两个物体的空间关系是什么？同一个物体换一个视角后还能否稳定定位？
这些能力背后有一个绕不开的问题：空间智能需要大规模、细粒度、带几何约束的 3D 数据。
现有做法通常依赖 ScanNet、ScanNet++ 等少量人工标注 3D 数据集，再在其上生成 QA。这样做能推动研究，但也带来两个限制：一是数据规模受限，二是人工采集和标注形成的领域分布较窄，模型很难真正面向开放真实场景泛化。
针对这一瓶颈，来自上海人工智能实验室、西北工业大学、上海交通大学等机构的研究团队提出了Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence，并获ICML 2026 Oral。
论文提出一个全自动空间数据构建框架 Holi-Spatial，能够从原始视频流出发，自动完成高质量 3D 几何重建、开放词表语义感知、3D 实例提升与场景级精修，并进一步构建出 Holi-Spatial-4M：一个包含 400 万级空间标注的大规模 3D 语义数据集。

论文地址：https://arxiv.org/abs/2603.07660项目主页：https://visionary-laboratory.github.io/holi-spatial/代码仓库：https://github.com/Visionary-Laboratory/Holi-Spatial

概述
Holi-Spatial 把原始视频自动转化为可训练空间智能模型的多层级监督数据，覆盖从几何重建到语义标注、从 3D grounding 到空间问答的完整链路。
更关键的是，它不是只做一个单点任务，而是形成了一个自动化数据飞轮，团队基于如今各种基座模型的能力增强尝试使用全自动流程：视频进入，3D 场景和空间语义标注出来；数据规模继续扩大，模型的 3D 空间理解能力也随之提升。
为什么空间智能缺数据？

空间智能不是简单的「图片里有什么」。
它要求模型理解真实世界中的三维结构和关系，例如：
相机从视角 A 到视角 B 主要向哪个方向移动？某个椅子在当前观察者的左前方还是右后方？桌子和沙发之间的距离是多少？目标物体在不同视角下是否能被稳定定位？一个开放词表描述对应的物体，能否在 3D 空间中准确框出来？
这些问题既需要语义理解，也需要几何一致性。仅靠单张图片或普通视频字幕，很难让模型学到可靠的 3D 空间概念。
过去，研究者往往基于人工采集的 3D 数据集构造空间 QA。问题是，这类数据集成本高、类别有限、规模难扩展。例如一些经典室内 3D 数据集的语义类别是封闭的，无法覆盖真实世界中长尾、细粒度的物体描述。
Holi-Spatial 的出发点是：如果我们能把网络和公开数据中的原始视频，自动转化为高质量 3D 空间监督，空间智能的数据瓶颈就有机会被系统性缓解。
Holi-Spatial 怎么做？

Holi-Spatial 的核心是一个三阶段自动化数据构建管线。

Holi-Spatial 数据构建框架。整体流程包括几何优化、图像级感知、场景级精修，并最终生成 Holi-Spatial-4M 用于下游训练。
第一阶段：几何优化，把视频变成高质量 3D 结构
系统首先从原始视频中恢复相机内外参，并利用空间基础模型得到初始稠密点云和深度先验。
但直接使用前馈深度模型会遇到一个典型问题：多视角投影时容易出现噪声、漂浮点和几何不一致。为此，Holi-Spatial 引入 3D Gaussian Splatting 进行逐场景优化，并加入几何正则，使深度在多视角下更加一致。
这一步的目标不是单纯追求视觉上好看的重建，而是为后续 3D 框生成、实例聚合和空间 QA 构造提供可靠几何基础。
第二阶段：图像级开放词表感知，把 2D 语义提升到 3D 候选
在每个视频场景中，系统采样关键帧，并使用 VLM 生成开放词表类别。为了让不同帧中的类别更稳定，Holi-Spatial 维护一个动态类别记忆，让模型优先复用历史帧中已经识别过的语义标签。
随后，系统使用 SAM3 生成开放词表实例分割 mask，再结合优化后的 3DGS 深度，将 2D mask 反投影到三维空间，形成初始 3D 物体候选。
论文中特别处理了一个常见难点：2D mask 边界误差和深度边缘噪声会导致 3D 框不准。Holi-Spatial 通过 mask 腐蚀和 mesh-guided depth filtering 过滤不可靠边缘点，从而减少 3D 漂浮点对物体框的干扰。
第三阶段：场景级精修，合并、验证、描述实例
初始 3D 候选通常会有重复、碎片化和低置信度的问题。Holi-Spatial 进一步在场景级进行粗到细精修：
1. 多视角合并：根据类别和 3D IoU 合并跨视角重复实例。
2. 地面 / 重力对齐：让 3D 框更加符合真实场景中的垂直方向。
3. 置信度过滤：高置信度实例保留，低置信度实例删除。
4.VLM Agent 复核：对边界置信度实例，用带有 zoom-in 和重分割工具的 VLM Agent 再次验证。
5. 实例描述和 QA 生成：对最终实例生成细粒度 caption，并构造 3D grounding 与空间 QA 样本。
这套流程最终输出的不只是一个重建模型，而是一组可直接用于训练空间智能模型的多模态监督。
Holi-Spatial-4M：400 万级空间标注
基于上述自动化管线，作者构建了 Holi-Spatial-4M。
数据来自 ScanNet、ScanNet++ 和 DL3DV-10K 等多源视频场景。与传统封闭类别 3D 数据不同，Holi-Spatial-4M 依托 VLM 的开放世界知识，能够覆盖更长尾、更细粒度的室内物体类别。

Holi-Spatial-4M 数据统计，包括开放词表物体分布、不同来源场景占比，以及空间 QA 任务类型分布。
实验结果：数据质量和训练增益都显著
Holi-Spatial 首先在数据构建质量上进行了验证。作者在 ScanNet、ScanNet++ 和 DL3DV-10K 中随机采样场景，并额外进行人工标注作为评估 GT，比较深度、2D 分割和 3D 检测质量。

多视角深度可视化对比。相比 LangSplat、M3-Spatial、Depth-Anything-V3 等方法，Holi-Spatial 生成的点云更干净，漂浮点和重影更少。

表 1：Holi-Spatial 在 ScanNet、ScanNet++ 和 DL3DV-10K 上的数据构建质量评估。表格对应论文 Table 2，对比深度 F1、2D 分割 IoU 和 3D 检测 AP25/AP50。
从表 1 可以看到，Holi-Spatial 在三个数据源上同时提升几何、2D 语义和 3D 检测质量：在 ScanNet++ 上，Depth F1 达到 0.89，2D Seg IoU 达到 0.64，3D Det AP25/AP50 达到 81.06/70.05；在 ScanNet 上对应指标为 0.98、0.66、76.60/67.00；在 DL3DV-10K 上也达到 0.78、0.71、62.89/52.67。相比 M3-Spatial、LangSplat、SA2VA、LLaVA-3D 等基线，Holi-Spatial 不只在单一任务上领先，而是在深度、分割和 3D 框三个环节都保持更稳定的整体质量。

开放词表 2D 实例分割可视化。Holi-Spatial 在边界完整性、遮挡场景和细粒度类别识别上表现更稳定。

ScanNet++ 上的 3D 目标检测可视化。相比 Scenescript、LLaVA-3D、SpatialLM，Holi-Spatial 预测的 3D 框更紧凑，类别更准确。
更重要的是，这些数据确实能提升 VLM 的空间能力。
作者使用 Holi-Spatial-4M 对 Qwen3-VL 系列模型进行微调。在空间 QA 任务上：

表 2：Holi-Spatial-4M 微调后，Qwen3-VL 系列模型在 MMSI-Bench, MindCube,ViewSpatial 和 SparBench-tiny 上的空间 QA 结果。
在 ScanNet++ 3D grounding 任务上：

表 3：Holi-Spatial-4M 微调后，Qwen3-VL-8B 在 ScanNet++ 3D grounding 任务上的结果。
这里的 AP15、AP25 和 AP50 分别对应不同 IoU 阈值下的 3D grounding 平均精度，阈值越高，对预测 3D 框的位置、尺寸和空间对齐要求越严格。可以看到，原始 Qwen3-VL-8B 在 AP50 上为 13.50，经过 Holi-Spatial-4M 微调后提升到 27.98，增加 14.48 AP 点；在 AP15 和 AP25 上也分别从 19.82、16.80 提升到 35.52、31.94。
这说明 Holi-Spatial-4M 带来的提升并不只来自语言问答能力，而是让模型更好地把文本指令、图像观察和 3D 空间位置对齐起来。论文中将这种提升归因于 1.2M 3D grounding 样本提供的强监督：相比主要依赖单视角或锚定视角训练的基线模型，经过 Holi-Spatial 数据训练后的模型在跨视角、不同空间深度和遮挡场景下更容易定位到正确物体。

Holi-Spatial 构建的 10 类空间 QA 样例，覆盖相机运动、相机 - 物体关系、物体 - 物体关系和尺寸测量等任务。
这些 QA 并不是简单的物体识别题，而是围绕空间关系设计了 10 类问题：相机旋转、相机移动方向、相机移动距离、相机 - 物体方向、相机 - 物体距离、全局坐标系下的相机 - 物体距离、物体 - 物体距离、物体尺寸测量、局部观察者坐标系下的物体 - 物体方向，以及全局坐标系下的物体 - 物体方向。这样的设计让模型同时学习自我运动、视角变化、物体间相对位置和尺度估计。
论文还提到，训练这些 QA 数据对 MindCube 和 MMSI-Bench 中的视角切换、第一人称空间想象等问题尤其有帮助。同时，Holi-Spatial 会先用 VLM 描述物体外观，再把外观描述作为问题中的指代表达，这相当于把「看清物体」和「在 3D 空间中定位物体」绑定起来，进一步增强模型在空间问答中的视觉 grounding 能力。

3D grounding 可视化。经过 Holi-Spatial 数据微调后，模型能在多视角和不同空间深度下更准确定位查询物体。

一个值得关注的点：自动化数据飞轮
Holi-Spatial 最值得关注的地方，不只是做出了一个大数据集，而是把 “空间数据生产” 这件事变成了一个自动化流程。
这点对于空间智能很关键。
如果模型要进入机器人、AR、具身智能、场景编辑和真实世界导航等应用，靠有限人工扫描数据很难覆盖足够多的环境、物体和空间关系。原始视频则更容易获得，数量也远大于传统 3D 标注数据。
Holi-Spatial 证明了一个方向：通过组合当前强大的几何模型、VLM、分割模型和 3D 优化方法，原始视频可以被自动转化成结构化、可训练、可评估的空间智能数据。
这也意味着，未来空间智能模型的提升可能不只来自更大的模型参数，还来自更强的数据构建系统。
也有哪些限制？
论文也讨论了当前系统的局限。
首先，Holi-Spatial 依赖多个上游模型和逐场景优化，计算成本仍然较高。其次，在视角有限、运动模糊、严重遮挡、动态物体较多的视频中，几何恢复和实例标注仍可能退化。开放词表语义标注也可能继承基础模型的偏差或错误，因此更稳健的验证机制和不确定性估计仍是未来方向。
不过，作为一个自动化空间数据构建框架，Holi-Spatial 已经展示出明确潜力：当原始视频数据继续增长，空间智能模型也可以获得更大规模、更细粒度、更接近真实世界的训练信号。
作者与机构

论文作者包括 Yuanyuan Gao、Hao Li、Yifei Liu、Xinhao Ji、Yuning Gong、Yuanjun Liao、Fangfu Liu、Manyuan Zhang、Yuchen Yang、Dan Xu、Xue Yang、Huaxi Huang、Hongjie Zhang、Ziwei Liu、Xiao Sun、Dingwen Zhang、Zhihang Zhong。
机构覆盖上海人工智能实验室、西北工业大学、上海交通大学、北京大学、南洋理工大学、北京航空航天大学、四川大学、清华大学、香港中文大学、复旦大学、香港科技大学等。
Paper: https://arxiv.org/abs/2603.07660
Project: https://visionary-laboratory.github.io/holi-spatial/
Code: https://github.com/Visionary-Laboratory/Holi-Spatial

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

港股互联网指数回到“9.24”起点，行业走向何处？

走出“出海小腾讯”，AI互动游戏Aippy离成为“AI抖音”还差多远？｜出海参考

“腾讯AI进度慢”？姚顺雨、汤道生相继回应

刚刚，姚顺雨现身！公开回应腾讯AI落后了吗？

首批150新员工已入驻雄安，拼多多加快推动新区数字经济发展

滴滴押注的机器人，已经走进酒店“上班”了！

全站最新

港股互联网指数回到“9.24”起点，行业走向何处？

走出“出海小腾讯”，AI互动游戏Aippy离成为“AI抖音”还差多远？｜出海参考

“腾讯AI进度慢”？姚顺雨、汤道生相继回应

刚刚，姚顺雨现身！公开回应腾讯AI落后了吗？

热门推荐

中信股份成立企管合伙企业

黄锐名下工作室以蛋黄酱命名

南网数字旗下广东电算科技工程公司增资至15.17亿增幅约17%

优思益营销策划方被罚200万

北京银河华科股权投资基金登记成立出资额4.48亿

消费锚定新价值：新周期下父爱经济的升级蜕变

国产小机械火遍海外，现存挖掘机相关企业超2.8万家

冷链物流市场规模将破5850亿，现存冷链运输相关企业超3.2万家

恒星引力等在上海成立新公司

吴倩已成立个人独资工作室

拉普拉斯在无锡成立半导体设备公司

广电计量增资至约6.4亿

杰创智能等在杭州成立智能科技公司注册资本500万

豪迈科技旗下日照公司增资至7亿增幅约133%

前公司起诉成毅工作室及经纪公司