DAP模型发布:突破全景深度估计瓶颈,开启200万数据集驱动空间智能新纪元
DAP模型发布:突破全景深度估计瓶颈,开启200万数据集驱动空间智能新纪元
在空间智能技术迅猛发展的浪潮中,360度全景视角凭借其无死角的环绕感知能力,已成为机器人导航、自动驾驶以及虚拟现实等领域的核心支撑技术。然而,全景深度估计这一关键技术,长期以来却深陷“数据匮乏”与“模型泛化能力不足”的双重困境。
近日,一项由Insta360研究团队、加州大学圣地亚哥分校、武汉大学及加州大学默塞德分校的科研人员联合推出的重磅成果——Depth Any Panoramas (DAP)模型,正式宣告了这一瓶颈的突破。作为首个在大规模、多样化数据集上训练而成的全景度量深度基础模型,DAP不仅成功统一了室内与室外场景的深度估计,更凭借其构建的200万量级数据引擎与创新的几何一致性设计,在多项权威基准测试中刷新纪录,并在多样化的开放世界场景中展现出卓越的稳定性与准确性。

- 论文标题:Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
- 项目主页:https://insta360-research-team.github.io/DAP_website/
- 论文链接:https://insta360-research-team.github.io/DAP_website/assets/paper.pdf
- 在线演示:https://huggingface.co/spaces/Insta360-Research/DAP
该模型展现出强大的泛化能力,即便对于由Gemini、DiT-360等模型生成的全景合成图像,也能预测出边缘锐利、逻辑自洽的高质量深度图,堪称空间AIGC内容生成链路中理想的几何基石。此外,DAP在处理全景视频流时同样表现优异,具备出色的帧间一致性与时间稳定性。

数据破局:从“贫矿”到200万量级的“数据海洋”
在深度学习领域,数据的规模与质量直接决定了模型性能的天花板。然而,获取带有精确深度标注的真实全景数据成本高昂,导致该领域长期依赖Stanford2D3D、Matterport3D等仅数万规模的小型数据集。
为彻底扭转这一局面,DAP团队构建了一个前所未有的全景数据引擎,将训练数据规模一举推升至200万级别。这一庞大体系包含:
- 170万张互联网真实全景图:从海量网络资源中爬取并经过严格筛选,覆盖了极其丰富的真实世界场景。
- UE5模拟器精准补全:利用基于虚幻引擎5开发的AirSim360模拟器,生成了9万张带有像素级精准深度标签的室外航拍数据,有效弥补了户外训练数据的空白。
- AIGC技术赋能:引入DiT360模型生成了20万张室内全景图,进一步增强了模型对复杂多样室内环境的理解与泛化能力。

三阶段伪标签精炼管线:化“无监督”为“强监督”
面对其中190万张无任何标注的原始全景图,如何充分挖掘其价值?DAP团队设计了一套精巧的三阶段伪标签精炼管线,如同一个高效的漏斗,层层过滤与提纯,最终淬炼出高质量的监督信号。
- 第一阶段:场景不变标注器。首先利用小规模但标注精准的合成数据训练一个基础扎实的深度标注器,确立可靠的物理深度基准。
- 第二阶段:写实性不变标注器。引入专门的深度质量判别器,从190万张图的预测结果中筛选出最可靠的60万张样本,再次训练标注器,以弥合合成数据与真实场景间的纹理差异。
- 第三阶段:全量模型训练。在融合了精炼伪标签与原始强监督标签的完整200万数据集上,最终训练出强大的DAP基础模型。

核心架构:DINOv3骨干与动态距离掩码
除了海量数据,DAP在模型架构上也进行了深度优化:
- 强大的特征提取骨干:采用前沿的DINOv3-Large模型作为视觉特征提取器,为模型注入了强大的视觉先验与零样本泛化能力。
- 距离自适应掩码头:模型创新性地加入了即插即用的距离阈值分支,允许用户根据具体应用场景动态调整深度感知范围,有效解决了全景图中远景区域深度预测不稳定的难题。
- 多维几何一致性优化:综合运用了SILog损失、锋利度损失、表面法线损失及点云一致性损失进行联合优化。这些损失函数专门针对全景图的等距柱状投影畸变进行了补偿,确保生成的深度图数值精确、边缘清晰、几何结构完整。

卓越性能:称霸主流评测榜单
在多项严格的零样本测试中,DAP模型均取得了领先业界的优异效果:
- 室内场景:在Stanford2D3D与Matterport3D数据集上,DAP的绝对相对误差显著降低,在未经任何微调的情况下,依然保持了极高的预测精度与一致性。
- 户外场景:在Deep360与DAP-Test等极具挑战的户外测试集上,DAP性能大幅超越之前的DAC、Unik3D等模型。其预测的建筑物边缘锐利,天空区域深度稳定,彻底避免了传统模型中常见的“深度空洞”或“结构扭曲”现象。

可视化对比:从实测对比图中可以清晰看到,相较于基线模型出现的远景模糊和天空深度误判,DAP模型对于复杂的家具纹理、远处的山脉轮廓等细节都能实现清晰、准确的深度估计。

开启空间智能新纪元
DAP模型的问世,标志着全景深度估计正式迈入了开放世界的新时代。它不仅能为自动驾驶和机器人提供更全面、精准的环境感知“眼睛”,也为3D场景重建、VR/AR内容创作提供了高效、低成本的深度信息获取方案。
正如论文所述,DAP通过大规模数据扩展与统一的三阶段训练管线,成功构建了一个能够跨越室内外场景、输出统一米制深度的全景视觉基础模型。目前,该项目的所有代码、模型均已开源,相关资源可通过项目主页获取。
“数据是全景领域实现通用人工智能感知的关键。” DAP不仅为机器人的全向避障导航奠定了坚实的技术基础,也为虚拟现实与增强现实中的大规模3D内容生成与场景重建提供了强大的核心引擎。对于关注全景视觉、空间计算与深度估计的研究者与开发者而言,DAP无疑是本年度不容错过的突破性成果。

想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/aaf95dff-91aa-4398-96b1-6e5443c55c1b