当前位置：首页 » 资讯 » 新科技 » 正文

阿联酋大学团队重新定义3D场景生成

IP属地中国·北京 科技行者 时间：2026-03-26 07:14:02

这项由阿联酋穆罕默德·本·扎耶德人工智能大学领导，联合AISphere、上海交通大学、悉尼大学、墨尔本大学和南洋理工大学共同完成的研究，发表于2026年3月17日，论文编号为arXiv:2603.16099v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
如果把计算机生成3D虚拟场景比作建造一座房子，那么目前大多数方法就像是先拍摄房子的各个角度照片，再试图从这些平面照片中推测出房子的实际结构。这种做法往往会导致从不同角度看同一个房子时出现不一致的细节，就好比从正面看是红砖房，从侧面看却变成了木屋。
现在，这个国际研究团队提出了一种全新的解决方案，他们称之为"OneWorld"。这就像是给计算机提供了一套完整的建筑蓝图和建材清单，让它能够直接在三维空间中搭建虚拟世界，而不再需要绕弯子通过二维图片来猜测三维结构。
研究团队发现，传统方法的根本问题在于它们在二维图像或视频的"平面世界"中工作，然后试图将这些平面信息组合成立体的三维场景。这就像是要求一个只见过照片的人去搭建真实的建筑模型一样困难。不同视角的图像往往会产生矛盾的信息，导致最终生成的3D场景在不同角度观看时出现不一致的问题。
为了解决这个挑战，研究人员开发了一个叫做"3D统一表示自编码器"的核心技术。可以把它想象成一个超级智能的建筑师，它不仅能理解建筑物的几何结构，还能同时掌握建筑的外观细节和语义含义。这个"建筑师"能够将几何信息（比如墙壁的位置和形状）、外观信息（比如墙壁的颜色和材质）以及语义信息（比如这是一面卧室的墙还是客厅的墙）统一整合在一个三维空间中。
具体来说，这个系统包含两个重要的创新分支。第一个是"外观注入分支"，就像给建筑师配备了一双能够精确捕捉颜色、纹理和光影细节的眼睛。传统的3D重建方法往往过分关注几何结构而忽略了视觉细节，导致生成的场景虽然结构正确但缺乏生动的外观。这个分支通过轻量级的卷积编码器提取外观信息，确保生成的3D场景不仅结构准确，而且视觉丰富。
第二个是"语义蒸馏分支"，相当于给建筑师提供了丰富的建筑知识和常识。这个分支从预训练的视觉基础模型（比如DINOv2）中提取语义知识，让系统能够理解什么是桌子、什么是椅子、哪些物体通常会出现在卧室而不是厨房。通过这种语义理解，系统生成的3D表示更加紧凑和有意义，为后续的生成过程打下了坚实的基础。
在训练扩散模型时，研究团队还引入了一个巧妙的"跨视角对应保持"机制。这就像是确保建筑师在设计房子时，从任何角度看都能保持一致的细节对应关系。具体来说，如果从正面看到门的位置，那么从侧面看时，这扇门应该出现在相应的正确位置上，而不是莫名其妙地移动了位置。
这个机制通过计算不同视角之间的特征对应关系，并用交叉熵损失来确保预测的场景能够保持这种对应关系。研究人员设置了一个置信度阈值（0.9），只有当对应关系足够可靠时才会被纳入训练，避免了错误对应关系的干扰。
研究团队还发现了一个在3D生成中特别严重的问题，他们称之为"流形漂移"。这就像是建筑师在实际施工时，由于材料和工具的微小误差，最终建成的房子与原始设计图纸产生了偏差。在AI生成中，这种偏差会在生成过程中逐步累积，导致最终结果偏离预期。
为了解决这个问题，他们提出了"流形漂移强化"策略。这种方法就像是训练建筑工人不仅要能按照完美的图纸施工，还要能处理各种不完美的情况。具体做法是在训练过程中故意混合一些"有偏差"的中间结果和正确的目标结果，让解码器学会在面对偏差时仍能产生合理的输出。
在实际实验中，研究团队使用了两个大规模数据集进行训练：RealEstate10K和DL3DV-10K，总共包含约7万个多视角一致的真实场景。这些数据集涵盖了从室内客厅、卧室到户外街景、自然风光等各种环境类型。
对于3D统一表示自编码器的训练，研究人员采用了8个输入视角来重建场景，每张图片都调整为224×448像素的分辨率。他们使用可微分的3D高斯散射渲染损失来确保生成质量，同时用语义蒸馏损失来保持语义一致性。整个训练过程在32块NVIDIA A100 GPU上进行，历时30000步。
在扩散模型训练阶段，他们使用了条件化的DiT（Diffusion Transformer）架构，采用x0预测而不是传统的噪声预测方式。这种选择基于高维特征空间的特性：在高维空间中，直接预测干净数据比预测噪声更加稳定和有效。训练过程同样使用混合数据集，批次大小为256，在100000步内完成。
流形漂移强化阶段的训练相对较短，只需要10000步。在这个阶段，研究人员冻结了3D编码器，只更新解码器部分，专门训练系统处理生成过程中可能出现的偏差。
实验结果显示，OneWorld在多个评估指标上都取得了显著的改进。在RealEstate10K数据集上，该方法达到了21.57的PSNR（峰值信噪比）和0.735的SSIM（结构相似性指数），同时将LPIPS（感知图像补丁相似性）降低到0.231。这些数字可能看起来很抽象，但换个角度理解：PSNR越高说明生成图像的质量越好，SSIM越接近1说明结构保持越完整，LPIPS越低说明人眼看到的效果越自然。
在DL3DV-10K数据集上，OneWorld同样表现出色，达到了17.19的PSNR、0.589的SSIM和0.418的LPIPS。研究团队还使用VBench评分系统评估了生成能力，在I2V主体一致性、I2V背景一致性和图像质量方面都取得了最佳成绩。
为了更全面地评估效果，研究人员还使用了WorldScore基准测试，这是一个专门用于评估3D世界生成质量的无参考评估协议。在包含500个室内场景的测试中，OneWorld在3D一致性方面达到了84.98分，在光度一致性方面达到了81.67分，在风格一致性方面达到了76.74分。这些指标表明，生成的3D场景在不同视角下能够保持高度的一致性。
研究团队还进行了详细的消融研究，验证了各个组件的重要性。当移除跨视角对应保持机制时，PSNR从21.57下降到19.10，SSIM从0.735下降到0.682，LPIPS从0.231上升到0.284，表明这个机制对于维持多视角一致性至关重要。同样，当移除流形漂移强化时，性能也出现了明显下降，证明了这种训练策略的有效性。
在外观注入分支的消融研究中，研究人员发现，没有这个分支时，PSNR从28.19下降到21.14，SSIM从0.932下降到0.669，LPIPS从0.102上升到0.293。这表明外观信息对于生成高质量的视觉效果确实不可或缺。
语义蒸馏分支的重要性也得到了验证。在没有语义蒸馏的情况下，PSNR下降到17.45，SSIM下降到0.644，LPIPS上升到0.352。这说明语义信息对于训练稳定的生成模型起到了关键作用。
研究团队还对各种超参数进行了细致的分析。在语义蒸馏中，他们发现边际值设置为0.05、语义权重设置为0.10时能够在重建质量和语义相似性之间取得最佳平衡。对于跨视角对应机制，置信度阈值设置为0.90、损失权重设置为0.20时效果最好。
与现有的最先进方法相比，OneWorld展现出了明显的优势。传统的基于多视角重建的方法，如LVSM、Gen3C等，虽然在某些指标上表现不错，但在跨视角一致性方面仍有不足。基于几何感知的方法，如GF（几何强化）和Aether，虽然在3D理解方面有所改进，但生成质量仍然受限。最近的一些方法，如FlashWorld和Gen3R，虽然引入了3D表示，但仍然在2D潜在空间中工作，或者将几何和外观分开生成，限制了最终效果。
OneWorld的核心优势在于它完全在统一的3D表示空间中工作，避免了2D到3D转换过程中的信息损失和不一致性问题。这种设计使得系统能够更好地维持跨视角的几何和外观一致性，同时提供了更高的生成质量。
在实际应用方面，这项技术有着广阔的前景。在游戏开发领域，它可以大大降低3D场景制作的成本和时间，让小团队也能创造出高质量的游戏世界。在虚拟现实和增强现实应用中，这种技术可以快速生成沉浸式环境，为用户提供更丰富的体验。在电影和动画制作中，它可以作为概念设计和预可视化的强大工具。在建筑设计和室内装修领域，这种技术可以帮助设计师快速可视化设计方案，让客户更直观地理解设计效果。
从技术发展的角度来看，这项研究代表了从基于2D先验的3D生成向真正的3D原生生成的重要转变。这种范式转换不仅提高了生成质量，也为未来更加复杂和智能的3D内容创建奠定了基础。
研究团队也坦诚地指出了当前方法的一些限制。首先，训练数据的规模和多样性仍然有限，这可能影响系统在处理罕见场景类型或极端视角时的表现。其次，目前的训练和生成分辨率相对较低，可能限制了细粒度纹理的保真度和细致结构的渲染质量。
为了验证预测空间选择的合理性，研究团队还进行了专门的对比实验。他们发现，在高维的3D特征空间中，直接预测干净数据（x0预测）比预测噪声或速度（v预测）更加稳定和有效。这是因为在高维空间中，噪声分布在整个环境空间中，而干净数据则集中在一个相对低维的流形上，直接预测流形上的点比预测整个高维空间中的向量更容易。
研究团队还将他们的方法与其他前馈3D高斯散射重建方法进行了比较。在相同的8视角重建设置下，他们的3D-URAE在RealEstate10K上达到了28.19的PSNR和0.932的SSIM，在DL3DV上达到了24.68的PSNR和0.816的SSIM，显著优于PixelSplat、MVSplat、DepthSplat等现有方法。
对于流形漂移问题，研究团队提供了理论分析。他们指出，在训练过程中，扩散模型看到的是真实数据加噪后的结果，而在推理过程中，模型需要处理自己生成的中间结果。这种分布差异会导致误差在生成过程中逐步累积，最终使生成结果偏离预期的数据流形。在多视角3D生成中，这种偏差还会通过视角间的耦合约束被放大，使问题更加严重。
流形漂移强化通过在训练时使用混合的真实和生成潜在表示，让解码器学会处理这种偏差，相当于增强了系统的鲁棒性。实验表明，这种策略不仅提高了单张图像的生成质量，更重要的是提升了多视角间的一致性。
研究还揭示了在统一3D表示空间中进行生成的一个重要优势：它能够自然地保持3D几何约束。传统的2D-based方法需要通过额外的约束或后处理来确保3D一致性，而在真正的3D空间中工作使得这种一致性成为自然属性。
从计算效率的角度来看，虽然OneWorld需要在相对高维的空间中进行扩散，但由于避免了复杂的2D到3D转换过程，实际的推理速度是具有竞争力的。更重要的是，生成质量的提升使得后处理的需求大大减少，从整体工作流程来看效率得到了提升。
这项研究还为未来的工作指出了几个重要方向。首先是扩大训练数据的规模和多样性，这可能需要开发更好的数据收集和标注方法。其次是提高生成分辨率，这需要在计算效率和质量之间找到更好的平衡。第三是探索更复杂的3D表示，比如能够处理动态场景或支持交互的表示。
说到底，这项研究代表了3D内容生成领域的一个重要里程碑。通过将生成过程从2D潜在空间转移到统一的3D表示空间，OneWorld不仅解决了长期困扰该领域的跨视角一致性问题，还为更高质量、更可控的3D内容创建开辟了新的道路。虽然还有一些技术挑战需要克服，但这种方法论上的转变为构建真正智能的3D世界生成系统奠定了坚实的基础。对于那些希望在虚拟世界中创造无限可能的开发者和创作者来说，这无疑是一个令人振奋的发展。
Q&A
Q1：OneWorld与传统的3D场景生成方法有什么根本不同？
A：传统方法是在2D图像或视频的平面空间中工作，然后试图将平面信息组合成3D场景，就像通过照片猜测房子结构。而OneWorld直接在三维空间中工作，使用统一的3D表示自编码器将几何、外观和语义信息整合在一个真正的3D空间中，避免了2D到3D转换中的信息损失和不一致性。
Q2：3D统一表示自编码器是如何工作的？
A：这个系统包含两个关键分支：外观注入分支和语义蒸馏分支。外观注入分支通过轻量级编码器提取颜色、纹理等视觉细节，确保生成的场景外观丰富。语义蒸馏分支从预训练的视觉模型中提取知识，让系统理解物体的语义含义。两个分支共同工作，创建既有准确几何结构又有丰富外观和语义理解的统一3D表示。
Q3：流形漂移强化解决了什么问题？
A：流形漂移是指AI在生成过程中，由于训练和推理时数据分布的差异，导致生成结果逐渐偏离预期目标的问题。在3D生成中这个问题更严重，因为不同视角间的约束会放大这种偏差。流形漂移强化通过在训练时混合真实数据和生成数据，让解码器学会处理这种偏差，提高了系统的稳定性和生成质量。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

声称战略转型 OpenAI宣布放弃视频生成应用Sora

Sora项目终止背后：OpenAI 的战略转向

百度智能云抢先具身智能赛道：AI云市场份额第一，服务30多重点企业

阮瑜：坚信未来三年会有更多大模型技术出现，快速地应用到场景中

“炮轰”周鸿祎后又致歉，傅盛闹得哪出？

美陪审团裁定元宇宙与谷歌公司在社交媒体成瘾案中负有责任

全站最新

声称战略转型 OpenAI宣布放弃视频生成应用Sora

Sora项目终止背后：OpenAI 的战略转向

百度智能云抢先具身智能赛道：AI云市场份额第一，服务30多重点企业

阮瑜：坚信未来三年会有更多大模型技术出现，快速地应用到场景中

热门推荐

赛力斯申请注册问界充电商标

歌华有线等成立具身智能机器人私募基金出资额20亿

蚂蚁集团旗下公司入股AI玩具生产商跃然创新

AI骚扰电话灰产涉事公司拥有多项通话专利

新石器无人车在广西成立新科技公司注册资本100万

蔚来旗下澄迈电池科技公司增资至5亿增幅约733%

曾被传裁员的奇瑞旗下大卓智能经营异常

夏普商贸中国公司增资至47.3亿增幅约46%

中园石化加油站多年0人参保

深高新投高端装备产业私募基金增资至15.9亿

国元证券等成立具身未来股权投资合伙企业出资额1.04亿

永雄集团旗下分支机构均已注销

字节跳动申请注册Seedance商标

阿里巴巴同日成立2家新数据科技公司

中环领先半导体增资至约53.9亿