当前位置: 首页 » 资讯 » 新科技 » 正文

阿联酋大学团队重新定义3D场景生成

IP属地 中国·北京 科技行者 时间:2026-03-26 07:14:02


这项由阿联酋穆罕默德·本·扎耶德人工智能大学领导,联合AISphere、上海交通大学、悉尼大学、墨尔本大学和南洋理工大学共同完成的研究,发表于2026年3月17日,论文编号为arXiv:2603.16099v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

如果把计算机生成3D虚拟场景比作建造一座房子,那么目前大多数方法就像是先拍摄房子的各个角度照片,再试图从这些平面照片中推测出房子的实际结构。这种做法往往会导致从不同角度看同一个房子时出现不一致的细节,就好比从正面看是红砖房,从侧面看却变成了木屋。

现在,这个国际研究团队提出了一种全新的解决方案,他们称之为"OneWorld"。这就像是给计算机提供了一套完整的建筑蓝图和建材清单,让它能够直接在三维空间中搭建虚拟世界,而不再需要绕弯子通过二维图片来猜测三维结构。

研究团队发现,传统方法的根本问题在于它们在二维图像或视频的"平面世界"中工作,然后试图将这些平面信息组合成立体的三维场景。这就像是要求一个只见过照片的人去搭建真实的建筑模型一样困难。不同视角的图像往往会产生矛盾的信息,导致最终生成的3D场景在不同角度观看时出现不一致的问题。

为了解决这个挑战,研究人员开发了一个叫做"3D统一表示自编码器"的核心技术。可以把它想象成一个超级智能的建筑师,它不仅能理解建筑物的几何结构,还能同时掌握建筑的外观细节和语义含义。这个"建筑师"能够将几何信息(比如墙壁的位置和形状)、外观信息(比如墙壁的颜色和材质)以及语义信息(比如这是一面卧室的墙还是客厅的墙)统一整合在一个三维空间中。

具体来说,这个系统包含两个重要的创新分支。第一个是"外观注入分支",就像给建筑师配备了一双能够精确捕捉颜色、纹理和光影细节的眼睛。传统的3D重建方法往往过分关注几何结构而忽略了视觉细节,导致生成的场景虽然结构正确但缺乏生动的外观。这个分支通过轻量级的卷积编码器提取外观信息,确保生成的3D场景不仅结构准确,而且视觉丰富。

第二个是"语义蒸馏分支",相当于给建筑师提供了丰富的建筑知识和常识。这个分支从预训练的视觉基础模型(比如DINOv2)中提取语义知识,让系统能够理解什么是桌子、什么是椅子、哪些物体通常会出现在卧室而不是厨房。通过这种语义理解,系统生成的3D表示更加紧凑和有意义,为后续的生成过程打下了坚实的基础。

在训练扩散模型时,研究团队还引入了一个巧妙的"跨视角对应保持"机制。这就像是确保建筑师在设计房子时,从任何角度看都能保持一致的细节对应关系。具体来说,如果从正面看到门的位置,那么从侧面看时,这扇门应该出现在相应的正确位置上,而不是莫名其妙地移动了位置。

这个机制通过计算不同视角之间的特征对应关系,并用交叉熵损失来确保预测的场景能够保持这种对应关系。研究人员设置了一个置信度阈值(0.9),只有当对应关系足够可靠时才会被纳入训练,避免了错误对应关系的干扰。

研究团队还发现了一个在3D生成中特别严重的问题,他们称之为"流形漂移"。这就像是建筑师在实际施工时,由于材料和工具的微小误差,最终建成的房子与原始设计图纸产生了偏差。在AI生成中,这种偏差会在生成过程中逐步累积,导致最终结果偏离预期。

为了解决这个问题,他们提出了"流形漂移强化"策略。这种方法就像是训练建筑工人不仅要能按照完美的图纸施工,还要能处理各种不完美的情况。具体做法是在训练过程中故意混合一些"有偏差"的中间结果和正确的目标结果,让解码器学会在面对偏差时仍能产生合理的输出。

在实际实验中,研究团队使用了两个大规模数据集进行训练:RealEstate10K和DL3DV-10K,总共包含约7万个多视角一致的真实场景。这些数据集涵盖了从室内客厅、卧室到户外街景、自然风光等各种环境类型。

对于3D统一表示自编码器的训练,研究人员采用了8个输入视角来重建场景,每张图片都调整为224×448像素的分辨率。他们使用可微分的3D高斯散射渲染损失来确保生成质量,同时用语义蒸馏损失来保持语义一致性。整个训练过程在32块NVIDIA A100 GPU上进行,历时30000步。

在扩散模型训练阶段,他们使用了条件化的DiT(Diffusion Transformer)架构,采用x0预测而不是传统的噪声预测方式。这种选择基于高维特征空间的特性:在高维空间中,直接预测干净数据比预测噪声更加稳定和有效。训练过程同样使用混合数据集,批次大小为256,在100000步内完成。

流形漂移强化阶段的训练相对较短,只需要10000步。在这个阶段,研究人员冻结了3D编码器,只更新解码器部分,专门训练系统处理生成过程中可能出现的偏差。

实验结果显示,OneWorld在多个评估指标上都取得了显著的改进。在RealEstate10K数据集上,该方法达到了21.57的PSNR(峰值信噪比)和0.735的SSIM(结构相似性指数),同时将LPIPS(感知图像补丁相似性)降低到0.231。这些数字可能看起来很抽象,但换个角度理解:PSNR越高说明生成图像的质量越好,SSIM越接近1说明结构保持越完整,LPIPS越低说明人眼看到的效果越自然。

在DL3DV-10K数据集上,OneWorld同样表现出色,达到了17.19的PSNR、0.589的SSIM和0.418的LPIPS。研究团队还使用VBench评分系统评估了生成能力,在I2V主体一致性、I2V背景一致性和图像质量方面都取得了最佳成绩。

为了更全面地评估效果,研究人员还使用了WorldScore基准测试,这是一个专门用于评估3D世界生成质量的无参考评估协议。在包含500个室内场景的测试中,OneWorld在3D一致性方面达到了84.98分,在光度一致性方面达到了81.67分,在风格一致性方面达到了76.74分。这些指标表明,生成的3D场景在不同视角下能够保持高度的一致性。

研究团队还进行了详细的消融研究,验证了各个组件的重要性。当移除跨视角对应保持机制时,PSNR从21.57下降到19.10,SSIM从0.735下降到0.682,LPIPS从0.231上升到0.284,表明这个机制对于维持多视角一致性至关重要。同样,当移除流形漂移强化时,性能也出现了明显下降,证明了这种训练策略的有效性。

在外观注入分支的消融研究中,研究人员发现,没有这个分支时,PSNR从28.19下降到21.14,SSIM从0.932下降到0.669,LPIPS从0.102上升到0.293。这表明外观信息对于生成高质量的视觉效果确实不可或缺。

语义蒸馏分支的重要性也得到了验证。在没有语义蒸馏的情况下,PSNR下降到17.45,SSIM下降到0.644,LPIPS上升到0.352。这说明语义信息对于训练稳定的生成模型起到了关键作用。

研究团队还对各种超参数进行了细致的分析。在语义蒸馏中,他们发现边际值设置为0.05、语义权重设置为0.10时能够在重建质量和语义相似性之间取得最佳平衡。对于跨视角对应机制,置信度阈值设置为0.90、损失权重设置为0.20时效果最好。

与现有的最先进方法相比,OneWorld展现出了明显的优势。传统的基于多视角重建的方法,如LVSM、Gen3C等,虽然在某些指标上表现不错,但在跨视角一致性方面仍有不足。基于几何感知的方法,如GF(几何强化)和Aether,虽然在3D理解方面有所改进,但生成质量仍然受限。最近的一些方法,如FlashWorld和Gen3R,虽然引入了3D表示,但仍然在2D潜在空间中工作,或者将几何和外观分开生成,限制了最终效果。

OneWorld的核心优势在于它完全在统一的3D表示空间中工作,避免了2D到3D转换过程中的信息损失和不一致性问题。这种设计使得系统能够更好地维持跨视角的几何和外观一致性,同时提供了更高的生成质量。

在实际应用方面,这项技术有着广阔的前景。在游戏开发领域,它可以大大降低3D场景制作的成本和时间,让小团队也能创造出高质量的游戏世界。在虚拟现实和增强现实应用中,这种技术可以快速生成沉浸式环境,为用户提供更丰富的体验。在电影和动画制作中,它可以作为概念设计和预可视化的强大工具。在建筑设计和室内装修领域,这种技术可以帮助设计师快速可视化设计方案,让客户更直观地理解设计效果。

从技术发展的角度来看,这项研究代表了从基于2D先验的3D生成向真正的3D原生生成的重要转变。这种范式转换不仅提高了生成质量,也为未来更加复杂和智能的3D内容创建奠定了基础。

研究团队也坦诚地指出了当前方法的一些限制。首先,训练数据的规模和多样性仍然有限,这可能影响系统在处理罕见场景类型或极端视角时的表现。其次,目前的训练和生成分辨率相对较低,可能限制了细粒度纹理的保真度和细致结构的渲染质量。

为了验证预测空间选择的合理性,研究团队还进行了专门的对比实验。他们发现,在高维的3D特征空间中,直接预测干净数据(x0预测)比预测噪声或速度(v预测)更加稳定和有效。这是因为在高维空间中,噪声分布在整个环境空间中,而干净数据则集中在一个相对低维的流形上,直接预测流形上的点比预测整个高维空间中的向量更容易。

研究团队还将他们的方法与其他前馈3D高斯散射重建方法进行了比较。在相同的8视角重建设置下,他们的3D-URAE在RealEstate10K上达到了28.19的PSNR和0.932的SSIM,在DL3DV上达到了24.68的PSNR和0.816的SSIM,显著优于PixelSplat、MVSplat、DepthSplat等现有方法。

对于流形漂移问题,研究团队提供了理论分析。他们指出,在训练过程中,扩散模型看到的是真实数据加噪后的结果,而在推理过程中,模型需要处理自己生成的中间结果。这种分布差异会导致误差在生成过程中逐步累积,最终使生成结果偏离预期的数据流形。在多视角3D生成中,这种偏差还会通过视角间的耦合约束被放大,使问题更加严重。

流形漂移强化通过在训练时使用混合的真实和生成潜在表示,让解码器学会处理这种偏差,相当于增强了系统的鲁棒性。实验表明,这种策略不仅提高了单张图像的生成质量,更重要的是提升了多视角间的一致性。

研究还揭示了在统一3D表示空间中进行生成的一个重要优势:它能够自然地保持3D几何约束。传统的2D-based方法需要通过额外的约束或后处理来确保3D一致性,而在真正的3D空间中工作使得这种一致性成为自然属性。

从计算效率的角度来看,虽然OneWorld需要在相对高维的空间中进行扩散,但由于避免了复杂的2D到3D转换过程,实际的推理速度是具有竞争力的。更重要的是,生成质量的提升使得后处理的需求大大减少,从整体工作流程来看效率得到了提升。

这项研究还为未来的工作指出了几个重要方向。首先是扩大训练数据的规模和多样性,这可能需要开发更好的数据收集和标注方法。其次是提高生成分辨率,这需要在计算效率和质量之间找到更好的平衡。第三是探索更复杂的3D表示,比如能够处理动态场景或支持交互的表示。

说到底,这项研究代表了3D内容生成领域的一个重要里程碑。通过将生成过程从2D潜在空间转移到统一的3D表示空间,OneWorld不仅解决了长期困扰该领域的跨视角一致性问题,还为更高质量、更可控的3D内容创建开辟了新的道路。虽然还有一些技术挑战需要克服,但这种方法论上的转变为构建真正智能的3D世界生成系统奠定了坚实的基础。对于那些希望在虚拟世界中创造无限可能的开发者和创作者来说,这无疑是一个令人振奋的发展。

Q&A

Q1:OneWorld与传统的3D场景生成方法有什么根本不同?

A:传统方法是在2D图像或视频的平面空间中工作,然后试图将平面信息组合成3D场景,就像通过照片猜测房子结构。而OneWorld直接在三维空间中工作,使用统一的3D表示自编码器将几何、外观和语义信息整合在一个真正的3D空间中,避免了2D到3D转换中的信息损失和不一致性。

Q2:3D统一表示自编码器是如何工作的?

A:这个系统包含两个关键分支:外观注入分支和语义蒸馏分支。外观注入分支通过轻量级编码器提取颜色、纹理等视觉细节,确保生成的场景外观丰富。语义蒸馏分支从预训练的视觉模型中提取知识,让系统理解物体的语义含义。两个分支共同工作,创建既有准确几何结构又有丰富外观和语义理解的统一3D表示。

Q3:流形漂移强化解决了什么问题?

A:流形漂移是指AI在生成过程中,由于训练和推理时数据分布的差异,导致生成结果逐渐偏离预期目标的问题。在3D生成中这个问题更严重,因为不同视角间的约束会放大这种偏差。流形漂移强化通过在训练时混合真实数据和生成数据,让解码器学会处理这种偏差,提高了系统的稳定性和生成质量。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。