当前位置：首页 » 资讯 » 新科技 » 正文

Insta360推出DAP，200万数据打造全场景360°空间智能新高度

IP属地中国·北京 机器之心Pro 时间：2025-12-29 18:21:19

在空间智能（Spatial Intelligence）飞速发展的今天，全景视角因其 360° 的环绕覆盖能力，成为了机器人导航、自动驾驶及虚拟现实的核心基石。然而，全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。
近日，来自 Insta360 研究团队、加州大学圣地亚哥分校 (UCSD)、武汉大学以及加州大学默塞德分校的研究者共同推出了Depth Any Panoramas (DAP)。这是首个在大规模多样化数据集上训练的全景度量深度（Metric Depth）基础模型，不仅统一了室内外场景，更通过 200 万量级的数据引擎与创新的几何一致性设计，刷新了多项 benchmark 纪录，在多种 open-world 场景下保持优异的效果。

论文标题：Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation项目主页：https://insta360-research-team.github.io/DAP_website/论文链接：https://insta360-research-team.github.io/DAP_website/assets/paper.pdfDemo：https://huggingface.co/spaces/Insta360-Research/DAP
模型对由 Gemini 或 DiT-360 等合成的全景图同样展现出了极佳的预测效果，生成的深度图边缘锐利、逻辑自洽，是空间 AIGC 链路中理想的几何基石。除了静态图像，DAP 在处理全景视频流时同样展现出了极佳的预测效果，具备优秀的帧间一致性与稳定性。

破局：从「贫矿」到 200 万量级的「数据海洋」
在深度学习时代，数据的规模决定了模型的上限。然而，获取带高精度深度标注的全景数据成本极高，导致学术界长期依赖于几万张规模的小型数据集，如 Stanford2D3D 或 Matterport3D。
为了打破这一僵局，DAP 团队构建了一个规模空前的全景数据引擎，将数据量直接推向了200 万（2M）级别，除了现有的 Structured3D：
1.7M 互联网真实全景图：从海量网页中收集并精细过滤，覆盖了极为丰富的真实世界场景。UE5 模拟器精准补全：利用基于虚幻引擎 5 的 AirSim360 模拟器，生成了 90K 张高质量、带像素级深度标签的室外航拍数据，解决了户外训练数据稀缺的痛点。AIGC 技术协同：引入 DiT360 模型生成了 200K 张室内全景图，进一步增强了模型对多样化室内环境的理解力。

三阶段伪标签管线：让「无监督」变「强监督」
面对 1.9M 没有任何标签的原始全景图，如何挖掘它们的价值？
DAP 巧妙地设计了一个三阶段伪标签精炼管线，像漏斗一样层层筛选，最终淬炼出高质量的监督信号：
1.Stage 1：场景不变标注器。先用小规模但精准的合成数据（Structured3D + DAP-2M-Labeled）练出一个基本功扎实的标注器，确立物理意义上的深度基准。
2.Stage 2：写实性不变标注器。引入专门的深度质量判别器（Discriminator），从 1.9M 预测结果中筛选出最靠谱的 600K 样本（300K 室内 + 300K 户外），再次训练标注器，消除合成数据与真实场景之间的纹理鸿沟。
3.Stage 3：全量 DAP 训练。在汇集了精炼伪标签和原始强监督标签的 2M 数据集上，正式炼成 DAP 基础模型。

模型架构细节：DINOv3 骨干+动态距离掩码
除了海量数据，DAP 在模型架构上也进行了设计：
强大的 “大脑”：采用最新的DINOv3-Large作为特征提取骨干，赋予了模型极强的视觉先验和零样本泛化能力。距离自适应（Range Mask Head）：模型内置了即插即用的距离阈值分支，允许用户根据应用场景（如室内扫地机器人 vs 户外无人机）切换深度感知范围，有效解决了全景图中远景区域深度分布不均、预测不稳的问题。多维几何优化：引入了包括SILog 损失、锋利度损失（LDF/Lgrad）、表面法线损失以及点云一致性损失在内的联合优化。这些损失函数专门针对全景图的等距柱状投影（ERP）进行了畸变补偿，确保预测出的深度图不仅数值准，而且边缘锐利、几何结构不崩塌。

效果：三大主流榜单
在多项严苛的零样本（Zero-shot）测试中，DAP 展现了优异的效果：
室内场景（Stanford2D3D / Matterport3D）：DAP 的绝对相对误差（AbsRel）大幅下降，在没有针对目标数据集进行任何微调的情况下，依然保持了极高的预测一致性。户外场景（Deep360 / DAP-Test）：在极具挑战性的户外测试集中，DAP 显著超越了此前的 DAC 和 Unik3D。它预测出的建筑物边缘清晰，天空区域深度稳定，不再出现传统模型的 “深度空洞” 或 “结构扭曲”。

图示对比：图中的实测对比中可以看到，对比 baseline 出现的远景模糊和天空深度误判，DAP 无论是复杂的家具纹理还是远处的山脉轮廓，都清晰可见。

全空间智能的新里程碑
DAP 的出现，标志着全景深度估计正式进入了 open-world 时代。
它不仅能为自动驾驶、机器人避障提供更广阔的 “全知视角”，也为 3D 场景重建、VR/AR 内容创作提供了极低成本的深度获取手段。正如论文总结所言，DAP 通过大规模数据扩展和统一的三阶段管线，成功构建了一个能跨越室内外、统一米制深度的全景视觉基座。
目前，DAP 的项目页面已经正式上线，相关的代码与模型也已开源。
“数据是在全景领域实现 AGI 感知的关键。”DAP 不仅为机器人全向避障提供了更精准的 “眼睛”，也为 VR/AR 场景的大规模 3D 重建和场景生成奠定了坚实的技术底座。如果你对全景视觉、空间计算或深度估计感兴趣，DAP 绝对是不容错过的年度之作！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

跨境电商AI调用量翻十倍、成本降六成，腾讯云发布百万级云计算补贴

上海静安AI+大视听公共服务平台发布，将降低算力使用成本

单日可调阅影像超千万次，中肿与联影智能发布六大数智化成果

峰瑞资本李丰：为何这轮全球AI浪潮热度如此空前？ | 深度

拒绝问答广告，阿福的底气

第五届“上海科技青年35人引领计划”颁奖

全站最新

跨境电商AI调用量翻十倍、成本降六成，腾讯云发布百万级云计算补贴

上海静安AI+大视听公共服务平台发布，将降低算力使用成本

单日可调阅影像超千万次，中肿与联影智能发布六大数智化成果

峰瑞资本李丰：为何这轮全球AI浪潮热度如此空前？ | 深度

热门推荐

大家保险总助赵鹏辞任民生银行董事，此前曾陷“失联”传闻

Trae月活破160万！字节AI编程工具2025年度报告亮眼数据曝光，国内Coding生态加速进化

一加Turbo 6系列外观公布李杰：朝着旗舰水平打造

千问APP独家冠名B站跨年晚会，AI创作能力全面融入互动环节

17岁少年用ChatGPT编写黑客程序，窃取日本最大网咖725万用户数据！AI降低犯罪门槛引警报

Mozilla 推出 AI 驱动的 Firefox，开发者反对声不断

硅谷宠物情感 AI 公司 Traini 获超 5000 万元融资

OpenAI确认探索ChatGPT广告模式！免费用户或成新收入来源，2030年广告收入或达15亿美元

宇树首店将在北京开业

跨境电商AI调用量翻十倍、成本降六成，腾讯云发布百万级云计算补贴

上海静安AI+大视听公共服务平台发布，将降低算力使用成本

单日可调阅影像超千万次，中肿与联影智能发布六大数智化成果

峰瑞资本李丰：为何这轮全球AI浪潮热度如此空前？ | 深度

拒绝问答广告，阿福的底气

第五届“上海科技青年35人引领计划”颁奖