![]()
本研究由北京大学、高德地图研究团队联合完成。通讯作者包括北京大学博雅特聘教授,智能学院副院长陈宝权,北京大学助理教授陈文拯及高德地图徐牧。
试想一下,无论是为下一代 3A 大作(如《GTA 6》)构建一个 1:1 的纽约城,还是为城市级无人机送货系统规划一条在摩天大楼间穿梭的低空物流航线,甚至是为特大城市的应急响应系统构建一个毫厘毕现的数字底座,高精度的逼真 3D 城市模型都是关键。

通常,构建一座这样的 3D 城市模型需要数千人的美术团队耗时数年手工建模,或者动用昂贵的专业设备进行扫描。如何低成本、高效率地将庞大的 “实体都市” 复刻进数字空间,一直是计算机图形学与 3D 视觉领域试图攻克的终极难题。
相比之下,卫星图像覆盖全球、易于获取,似乎是理想的数据源。但实际上,用卫星图重建城市却一直非常困难。根本原因在于视角问题:卫星是从正上方俯拍,而我们需要的是带有清晰立面的地面视角。
这种从 “顶视图” 推理 “侧视图” 的视角极端外推,让现有先进方法如 NeRF 和 3DGS 都难以应对,重建出的建筑侧立面常常几何扭曲、纹理模糊。

SOTA 城市重建方法(CityGS-X)在卫星场景下,可以重建出良好的城市屋顶几何和自顶向下视角,但难以重建城市建筑侧立面,在近地视角产生严重的伪影。
为了解决这一难题,北大与高德团队提出了一种全新的生成式摄影测量方案Orbit2Ground。它巧妙地结合城市几何先验与生成式 AI,仅凭稀疏的卫星图像,就构建出了精细美观的逼真 3D 城市。
![]()
论文标题:From Orbit to Ground: Generative City Photogrammetry from Extreme Off-Nadir Satellite Images项目主页:https://pku-vcl-geometry.github.io/Orbit2Ground论文地址:https://arxiv.org/pdf/2512.07527
SDF 单调性约束
强制从屋顶 “长” 出墙壁
卫星图可以为屋顶提供良好的多视角立体视觉(Multi-View Stereo, MVS),但很难捕捉到建筑侧面的视差信息,这导致传统算法虽然能恢复出清晰的屋顶,但一处理侧面就会遭遇严重的几何崩塌,复原的墙面支离破碎,充满悬浮的碎片。
![]()
与常规的街景重建不同,卫星图像稀疏且视角严重地自顶向下,几乎无法捕捉垂直结构的视差。如图所示,多视角重建(黄色点)仅能恢复地面和屋顶,无法重建建筑物外立面。
为了补足缺失的侧面几何,团队利用了一个关键现象:绝大多数城市建筑的墙壁都是平整外凸的,极少出现向内凹陷的结构。
基于此,团队提出了Z-Monotonic SDF (Z 轴单调符号距离场)。其核心逻辑在于:约束 SDF 场在 Z 轴方向上单调递增。
![]()
若将常规的城市建筑形成 SDF 场,则在其中任意选取平面一条竖线,其上所有点的 SDF 值,均沿高度向上单调递增。
这一数学约束直接决定了最终的几何形态 —— 因为SDF 场的单调性强制要求其生成的等值面(即几何表面)必须是连续且非凹陷的,所以这意味着,几何体不允许在中间断开、破碎或是向内塌陷。
这种 “SDF 单调 → 几何非凹” 的强力约束,使得算法即便在仅有顶部观测数据的情况下,也能自动从屋顶向下 “拉伸” 出连续、闭合的完整墙壁。正是这一约束,从根本上避免了 “空心楼” 和墙面破碎的问题,从稀疏的卫星数据中生成了结构完整的建筑几何。

AI “精装修”,变模糊为高清
有了几何 “毛坯房”,下一步是解决纹理模糊的问题。
由于大气干扰和分辨率限制,卫星拍摄的侧面纹理往往不够清晰。为了解决这个问题,团队基于 FLUX 模型,训练了一个专门的确定性纹理修复网络。他们并没有让 AI 凭空捏造,而是让它基于卫星图提供的基础色调和结构,利用学习到的海量城市外观知识,对模糊的立面进行确定性修复。

通过将扩散模型微调为 “确定性” 模式,确保了在不同视角下生成的纹理是连贯统一的,避免了生成式 AI 常见的由随机性导致的鬼影、模糊等问题。
整体流程
![]()
Orbit2Ground 将重建任务解耦为几何与外观两个阶段:
第一阶段(几何重建):基于稀疏的 MVS 点云优化 Z-Monotonic SDF (Z 轴单调符号距离场),从而提取出具有干净垂直立面的高保真 Mesh 几何。第二阶段(外观精修):以初始纹理(由卫星图像反向投影得到)为起点,我们利用修复网络增强近距离新视角的渲染效果,进而将其作为清晰、高保真的监督信号,用于最终的纹理优化。
方法效果
在多个数据集上的测试表明,Orbit2Ground 在几何完整性和视觉保真度上均超越了当前的 SOTA 方法。
![]()
更重要的是,Orbit2Ground 展现了碾压级的视觉效果:

当其他方法在缺乏数据的区域产生云雾状的伪影时,Orbit2Ground 生成的是坚实、连贯的物理表面。在近距离的地面视角下,建筑立面的纹理清晰可辨,极大地提升了画面的真实感与沉浸感。
此外,与目前流行的 NeRF 或 3DGS 等 “云雾状” 表达不同,Orbit2Ground 最终输出的是标准的 Mesh (网格) 模型。
这意味着这套资产不是只能看、不能碰的 “全息影像”,而是可以直接导入 Unity、Unreal Engine 5 等主流引擎的实体资产。
![]()
Orbit2Ground 形成的城市 Mesh 模型,可以完成广泛的下游应用,例如降雪模拟。
开发者可以直接在这些模型上添加刚体碰撞、进行物理模拟(如积雪堆积、洪水淹没),或者进行光照渲染。这意味着我们拥有了一种低成本方案,能够生成不仅 “看得清”,而且真正 “用得上” 的城市级数字资产。
或许在不远的将来,
我们真的只需要几颗卫星,
就能在数字世界中复刻一个鲜活的地球。





京公网安备 11011402013531号