当前位置: 首页 » 资讯 » 新科技 » 正文

CVPR2026满分论文:Proxy-GS为结构化3D高斯溅射引入统一遮挡先验

IP属地 中国·北京 机器之心Pro 时间:2026-03-18 12:38:51





在城市街景场景中,Proxy-GS在保持细粒度视觉细节的同时,实现了稳定的实时渲染。我们的方法显著减少了需要解码的锚点(anchors)数量,从而在内存效率和渲染速度两方面都带来了显著提升。右上角的插图展示了所有锚点的俯视可视化,其中以红色高亮的锚点表示当前帧中被解码器使用的锚点。

CVPR2026满分论文:Proxy-GS为结构化 3D 高斯溅射引入统一遮挡先验

论文链接:https://arxiv.org/abs/2509.24421项目主页:https://visionary-laboratory.github.io/Proxy-GS/

上海交通大学钟志航团队联合上海人工智能实验室、西北工业大学、四川大学等高校在 CVPR 2026 上提出Proxy-GS(Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting),面向基于 MLP 的结构化 3D 高斯溅射(3DGS),用轻量级代理网格(proxy)把遮挡关系变成可用的可见性信号:在推理阶段快速生成遮挡深度图并剔除被遮挡的锚点以加速渲染;在训练阶段让增密沿代理表面生长,减少遮挡区的无效生长,并通过偏移使从锚点解码出的高斯更好地贴合代理几何。在遮挡密集的城市街景(如 MatrixCity Streets)中,Proxy-GS 在保持甚至提升画质的同时,实现了2.5×以上的渲染加速。



背景与动机:

为什么结构化 3DGS 会越跑越慢?

3D 高斯溅射(3DGS)在高质量新视角合成上已取得显著进展,但原始 3DGS 往往产生大量冗余高斯,且忽视场景几何结构。为此,Scaffold-GS、Octree-GS 等基于 MLP 的结构化方法将锚点(anchor)放在体素或八叉树节点上,用 MLP 根据视角动态解码高斯属性,在提升细节与鲁棒性的同时,也带来了可观的解码开销。在大规模城市场景中,锚点与高斯数量急剧增加,解码与渲染成本成为瓶颈。

现有工作通过剪枝或 LOD(Level of Detail)来减少冗余,但剪枝易损伤画质,LOD 主要针对“远处少画”,对被遮挡区域的无效计算关注不足。真实场景——尤其是城市街道、多房间室内——遮挡密集,若锚点选择不显式考虑遮挡,大量解码会浪费在被遮挡的锚点上。论文通过可视化发现:当前帧实际参与解码的锚点与“直觉上需要”的锚点之间存在明显错位,大量锚点落在严重遮挡区域,既增加解码负担又不贡献最终画面。因此,引入遮挡感知的锚点筛选有望显著降低计算量。

此外,消费级 GPU 的硬件光栅化能力很强,若能用其快速得到遮挡深度,再与现有视锥剔除等策略结合,即可在几乎不增加时延的前提下实现遮挡剔除。Proxy-GS 即围绕“轻量 proxy + 硬件光栅化 + 训练/推理一致使用遮挡先验”这一思路展开。



Figure 1. 总览:冗余锚点、剔除效果,以及 PSNR/FPS 对比。

如上图所示,Proxy-GS在现有 MLP-based LOD 框架(如 Octree-GS)之上,通过遮挡感知的锚点选择,既减少了解码量,又改善了画质,在遮挡丰富的场景中可实现约的渲染加速。

方法概览:

Proxy 在训练与推理中的双重角色

方法核心是构建一个轻量代理网格,使其能在1000×1000 分辨率下于 1ms 内得到遮挡深度图,并服务于两件事:推理时的锚点/高斯剔除训练时的 proxy-guided 增密



Figure 2. Proxy-GS 框架:推理期遮挡剔除 + 训练期 proxy-guided 增密。

代理网格的获取:室外大场景常用 COLMAP 等得到稠密点云;室内纹理弱、SfM 易失败时,文中采用 MapAnything 等大模型,以 COLMAP 位姿与 RGB 图像为输入得到稠密点云并转为网格。对网格做表面简化,只保留较粗的几何结构,用于表达遮挡关系即可,无需精细几何细节。

推理阶段:对 proxy 做仅深度的硬件光栅化,得到当前视角下的深度图;将锚点投影到像平面,与深度图做深度比较,落在 proxy 之后的锚点视为被遮挡并剔除,再与原有视锥剔除等在单一 CUDA kernel 中融合,避免 GPU-CPU-GPU 往返。深度图常驻 GPU,并施加小安全裕度 γ 以兼顾数值与几何误差。为加速,还对网格做细粒度分块并采用层次化深度(Hi-Z)剔除、Early-Z 等,使高分辨率深度生成耗时控制在约 1ms 内。

训练阶段:若仅在推理时做遮挡剔除而训练时仍对所有锚点一视同仁,会导致“训练时见过的锚点—高斯绑定”与“测试时被剔除的锚点”不一致,画质下降。因此 Proxy-GS 在训练时同样使用 proxy 深度做遮挡剔除,使训练与推理的可见性一致。此外,原增密策略在梯度大的地方生长新锚点,容易在 proxy 后方长出无效锚点。文中提出proxy-guided densification:在渲染误差持续较大的图像块上,取块内像素对应的 proxy 深度,反投影到 3D 得到新锚点位置,使新锚点落在 proxy 表面附近;并用 proxy-grid 控制每个网格格内锚点数量,避免 3D 上的过密重复。这样,增密更贴合表面几何,遮挡区无效生长减少,画质与速度更平衡。

推理耗时从哪里省下来?

论文在 MatrixCity上对比了 Proxy-GS 与 Octree-GS 各推理环节的耗时占比。Proxy 的深度渲染仅约 1ms,几乎可忽略;锚点筛选因待处理锚点变少而更快;节省主要来自渲染阶段:更少的锚点意味着更少的 MLP 解码和更少的高斯光栅化,从而带来显著的 FPS 提升。



Figure 3. 各推理环节时间占比:Proxy-GS 的深度渲染约 1ms,主要节省来自更少的解码与渲染。

实验结果

数据集与指标:在大型城市场景 MatrixCity、以及不同遮挡程度与尺度的真实场景(Small City 街景、Berlin、CUHK-LOWER 航拍、Zip-NeRF 室内)上评估。指标包括 PSNR、SSIM、LPIPS 和 FPS。

MatrixCity 街道:按官方划分将 Small City 的 8477 张街景分为 5 个 block,在 Block 1&2、Block 3&4、Block 5 上汇报平均指标。Proxy-GS 在各 block 上均在画质(PSNR/SSIM/LPIPS)和 FPS 上优于或持平 3DGS、Scaffold-GS、Hierarchical-GS、Octree-GS 等基线。尤其在 Block 5,Octree-GS 约 48 FPS,Proxy-GS 达到151 FPS,同时 PSNR 更高。



Table 1. MatrixCity Street:Proxy-GS 与 3DGS / Scaffold-GS / Hierarchical-GS / Octree-GS 的定量对比。

跨数据集泛化:在 Small City(遮挡较强)、Berlin、CUHK-LOWER(遮挡相对较弱、尺度较小)上,Proxy-GS 均取得最佳或次佳的画质与速度。遮挡越强的街景(如 Small City),加速与画质收益越明显;遮挡较弱或场景较小时仍有稳定收益,且未带来额外负担。



Table 2. 跨数据集:不同遮挡强度与尺度的场景。

定性对比:在建筑物窗户、纹理、路面结构等细节上,Proxy-GS 相比基线能更好地保持清晰度与结构一致性。



Figure 4. 定性对比:窗户、纹理、路面等细节。

训练与推理策略的消融:在 Block 5 上对比四种设置。ID1:Octree-GS 原流程(baseline)。ID2:仅在推理时做 proxy 遮挡剔除,训练不变;FPS 提升超过 3×,但画质明显下降,因训练时的锚点—高斯绑定与推理时可见性不一致。ID3:训练与推理均使用 proxy 遮挡剔除(遮挡一致性);画质超过 baseline,FPS 较 ID2 略降(因更多锚点在训练中生长后才被剔除)。ID4:在 ID3 基础上加入 proxy-guided densification;画质与速度达到最佳平衡。说明仅推理剔除不够,训练阶段也需与遮挡先验一致,并配合 proxy 引导的增密



Table 3. 不同训练与推理策略的消融(Block 5)。

对 Proxy 质量的依赖:通过两类消融衡量对 proxy 精度的敏感度。(1)网格分辨率:从较细(约 108MB)到较粗(约 824KB),PSNR 变化不大。城市场景以建筑立面、道路等大面为主,较粗的 proxy 仍能保留遮挡结构,故分辨率影响有限。(2)顶点噪声:对网格顶点施加随机扰动后,遮挡边界被破坏,PSNR 明显下降;噪声越大,伪结构越多、画面越糊。

结论是:Proxy 可以粗,但不能乱——只要遮挡结构正确,分辨率的降低影响有限;而几何/顶点噪声会破坏遮挡边界,对画质影响更大。另外,由于锚点与解码高斯之间存在固有偏移,在小扰动(如 5% 以内)下方法仍有一定鲁棒性。这种抗扰动性主要是来源于剔除anchor后,Gaussian本身还会相对于anchor学习一个offsets,这也是为什么需要Proxy-GS的训练阶段,这样每个不完美或者有瑕疵的proxy都会通过训练阶段,得到最适合他的Gaussian分布。ß下图进一步展示了不同分辨率与噪声设置下的 proxy 网格可视化,以及对应的 PSNR 变化曲线。

Figure 5. 不同分辨率与不同顶点噪声下的 proxy 网格可视化:分辨率降低时整体遮挡结构基本保持;噪声增大时遮挡边界被破坏,出现伪结构。





Figure 6. PSNR 随 proxy 分辨率和噪声变化的曲线:分辨率影响有限,而噪声增大带来明显的 PSNR 下降。

与其它加速方案的组合:Proxy-GS 主要减少参与渲染的锚点与高斯数量,因此可与 FlashGS、硬件光栅化 3DGS 等原有 3DGS 渲染加速技术叠加。在 Block 1 上的实验表明,在默认 3DGS 渲染器基础上替换为 FlashGS 或硬件 3DGS 渲染器,可进一步提速;使用硬件 3DGS 时 FPS 提升明显,画质略有 trade-off。说明该方法与现有渲染管线兼容,便于落地。

结论

Proxy-GS 为基于 MLP 的结构化 3D 高斯溅射提供了统一的遮挡先验:在推理端通过轻量 proxy 与硬件光栅化在约 1ms 内得到遮挡深度并剔除被遮挡锚点;在训练端通过遮挡一致的渲染与 proxy-guided 增密,使锚点生长更贴合表面、减少无效计算。在遮挡丰富的场景中,Proxy-GS在画质与速度上均优于现有方法,可实现约2.5×的渲染加速,提升了 MLP-based 3DGS 在 VR/AR 等应用中的实用性,为高效 3D 场景表示建立了新的标杆。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。