![]()
在空间智能(Spatial Intelligence)飞速发展的今天,全景视角因其 360° 的环绕覆盖能力,成为了机器人导航、自动驾驶及虚拟现实的核心基石。然而,全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。
近日,来自 Insta360 研究团队、加州大学圣地亚哥分校 (UCSD)、武汉大学以及加州大学默塞德分校的研究者共同推出了Depth Any Panoramas (DAP)。这是首个在大规模多样化数据集上训练的全景度量深度(Metric Depth)基础模型,不仅统一了室内外场景,更通过 200 万量级的数据引擎与创新的几何一致性设计,刷新了多项 benchmark 纪录,在多种 open-world 场景下保持优异的效果。
![]()
论文标题:Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation项目主页:https://insta360-research-team.github.io/DAP_website/论文链接:https://insta360-research-team.github.io/DAP_website/assets/paper.pdfDemo:https://huggingface.co/spaces/Insta360-Research/DAP
模型对由 Gemini 或 DiT-360 等合成的全景图同样展现出了极佳的预测效果,生成的深度图边缘锐利、逻辑自洽,是空间 AIGC 链路中理想的几何基石。 除了静态图像,DAP 在处理全景视频流时同样展现出了极佳的预测效果,具备优秀的帧间一致性与稳定性 。
![]()
破局:从「贫矿」到 200 万量级的「数据海洋」
在深度学习时代,数据的规模决定了模型的上限。然而,获取带高精度深度标注的全景数据成本极高,导致学术界长期依赖于几万张规模的小型数据集,如 Stanford2D3D 或 Matterport3D。
为了打破这一僵局,DAP 团队构建了一个规模空前的全景数据引擎,将数据量直接推向了200 万(2M)级别,除了现有的 Structured3D:
1.7M 互联网真实全景图:从海量网页中收集并精细过滤,覆盖了极为丰富的真实世界场景。UE5 模拟器精准补全:利用基于虚幻引擎 5 的 AirSim360 模拟器,生成了 90K 张高质量、带像素级深度标签的室外航拍数据,解决了户外训练数据稀缺的痛点。AIGC 技术协同:引入 DiT360 模型生成了 200K 张室内全景图,进一步增强了模型对多样化室内环境的理解力。
![]()
三阶段伪标签管线:让「无监督」变「强监督」
面对 1.9M 没有任何标签的原始全景图,如何挖掘它们的价值?
DAP 巧妙地设计了一个三阶段伪标签精炼管线,像漏斗一样层层筛选,最终淬炼出高质量的监督信号:
1.Stage 1:场景不变标注器。先用小规模但精准的合成数据(Structured3D + DAP-2M-Labeled)练出一个基本功扎实的标注器,确立物理意义上的深度基准。
2.Stage 2:写实性不变标注器。引入专门的深度质量判别器(Discriminator),从 1.9M 预测结果中筛选出最靠谱的 600K 样本(300K 室内 + 300K 户外),再次训练标注器,消除合成数据与真实场景之间的纹理鸿沟。
3.Stage 3:全量 DAP 训练。在汇集了精炼伪标签和原始强监督标签的 2M 数据集上,正式炼成 DAP 基础模型。
![]()
模型架构细节:DINOv3 骨干+动态距离掩码
除了海量数据,DAP 在模型架构上也进行了设计:
强大的 “大脑”:采用最新的DINOv3-Large作为特征提取骨干,赋予了模型极强的视觉先验和零样本泛化能力。距离自适应(Range Mask Head):模型内置了即插即用的距离阈值分支,允许用户根据应用场景(如室内扫地机器人 vs 户外无人机)切换深度感知范围,有效解决了全景图中远景区域深度分布不均、预测不稳的问题。多维几何优化:引入了包括SILog 损失、锋利度损失(LDF/Lgrad)、表面法线损失以及点云一致性损失在内的联合优化。这些损失函数专门针对全景图的等距柱状投影(ERP)进行了畸变补偿,确保预测出的深度图不仅数值准,而且边缘锐利、几何结构不崩塌。
![]()
效果:三大主流榜单
在多项严苛的零样本(Zero-shot)测试中,DAP 展现了优异的效果:
室内场景(Stanford2D3D / Matterport3D):DAP 的绝对相对误差(AbsRel)大幅下降,在没有针对目标数据集进行任何微调的情况下,依然保持了极高的预测一致性。户外场景(Deep360 / DAP-Test):在极具挑战性的户外测试集中,DAP 显著超越了此前的 DAC 和 Unik3D。它预测出的建筑物边缘清晰,天空区域深度稳定,不再出现传统模型的 “深度空洞” 或 “结构扭曲”。
![]()
![]()
图示对比:图中的实测对比中可以看到,对比 baseline 出现的远景模糊和天空深度误判,DAP 无论是复杂的家具纹理还是远处的山脉轮廓,都清晰可见。
![]()
全空间智能的新里程碑
DAP 的出现,标志着全景深度估计正式进入了 open-world 时代。
它不仅能为自动驾驶、机器人避障提供更广阔的 “全知视角”,也为 3D 场景重建、VR/AR 内容创作提供了极低成本的深度获取手段。正如论文总结所言,DAP 通过大规模数据扩展和统一的三阶段管线,成功构建了一个能跨越室内外、统一米制深度的全景视觉基座。
目前,DAP 的项目页面已经正式上线,相关的代码与模型也已开源。
“数据是在全景领域实现 AGI 感知的关键。”DAP 不仅为机器人全向避障提供了更精准的 “眼睛”,也为 VR/AR 场景的大规模 3D 重建和场景生成奠定了坚实的技术底座。如果你对全景视觉、空间计算或深度估计感兴趣,DAP 绝对是不容错过的年度之作!
![]()





京公网安备 11011402013531号