智东西
作者 ZeR0
编辑 漠影
智东西8月25日报道,AI不仅能生成文章、图像和视频,还能生成可以动的室内空间设计了!
只需用文字描述3D空间,或者上传一张户型图,你就能让AI创建出一个可交互的3D室内空间。
问客厅一共几个门,AI迅速给出答案“6扇门”。你也可以上难度,一句话让它生成适合老人居住的客厅:
AI能意识到“老人居住”需要的防滑扶手以及家具摆放方式,化身虚拟室内空间设计师,直接替你把防滑扶手、桌椅、窗帘、冰箱、落地灯等都布置好了。
你还可以要求更改细节,比如加一些装饰画:
或者提出更具体的要求,例如让AI生成一个适合老人居住的卧室,并需要一个带扶手的单人床,AI会立即生成满足诉求的新布局:
让AI规划从卧室床尾到餐桌边的路径,它能直接生成动态的3D空间漫游演示:
批量生成也不在话下,比如让AI生成三口之家的客厅,然后从AI输出的多样化设计稿中尽情挑选。
对比之下,以GPT-5为代表的大语言模型,输出可视化空间布局的能力就显现局限性了。
这么好用的空间生成与编辑能力,来自“杭州六小龙”之一群核科技刚刚发布的空间语言模型SpatialLM 1.5。
以前,群核科技的代表作是全球最大空间设计软件酷家乐。如今,这家冲刺科创板“空间智能第一股”的杭州AI公司正在讲出新故事。
在今日下午的群核科技首届技术开放日上,群核科技宣布开源3D场景生成模型SpatialGen,即将开源空间语言模型SpatialLM 1.5,并首次分享基于SpatialGen探索的AI视频生成解决方案,旨在解决时空一致性难题。
群核科技联合创始人兼董事长黄晓煌发布了群核科技空间智能全景图。
传统大语言模型对物理世界几何与空间关系的理解存在局限性。而SpatialLM 1.5不仅能理解文本指令,还能输出包含空间结构、物体关系、物理参数的“空间语言”,可被用具身智能机器人的虚拟训练上,解决数据难题。
今年3月,SpatialLM1.5的前代版本、开源空间理解模型SpatialLM 1.0曾与DeepSeek-V3-0324、Qwen2.5-Omni一起登上了全球最大AI开源平台Hugging Face的模型趋势榜前三。
SpatialLM 1.5将很快以空间语言对话Agent “SpatialLM-Chat” 形式开源。
SpatialGen已在Hugging Face、GitHub、魔搭开源。
Hugging Face地址:https://huggingface.co/manycore-research/SpatialGen-1.0
Github地址:https://github.com/manycore-research/SpatialGen
魔搭地址:https://modelscope.cn/models/manycore-research/SpatialGen-1.0
群核科技AI产品总监龙天泽透露,群核科技正在做一个“SpatialGen + AI视频创作”的内部保密项目,代号X。
其基于3D技术的AI视频生成产品计划在今年发布,可能成为“全球首款深度融合3D能力的AI视频生成Agent”。
他还现场播放了用该工具生成让群核科技三位联合创始人在不同场景中跳舞的搞笑视频。
这个视频呈现出几个特点:在有超过十个分镜的情况下保持精准的一致性,动作没有崩坏,能够精准卡点,在复杂运镜下画面内容依然合理,并实现内容可控性。
龙天泽说,群核科技的愿景是,让任何有创意想法并渴望将其视觉化的人,都可以利用AI 3D+视频产品来释放创造力。
会后,群核科技首席科学家周子寒进一步详细解释了群核空间大模型的技术细节与特点。
一、启动空间智能飞轮战略,迈向空间大模型的“DeepSeek时刻”
当前AI仍主要局限于文本、图像等二维交互领域,能够完成写作、绘图等任务,但要实现诸如家务协助等三维空间操作,仍有相当距离。
群核科技联合创始人兼董事长分享了群核科技在空间智能布局上的最新思考。
黄晓煌谈道,空间智能是AI从数字世界走向物理世界的关键桥梁。当前空间大模型仍面临三大技术挑战:室内空间数据获取比室外空间数据更困难、空间结构复杂度高、具身智能等场景中的交互需求更高。
基于全球最大的空间设计平台酷家乐,群核科技构建了“空间编辑工具-空间合成数据-空间大模型”的空间智能飞轮,让工具沉淀数据,用数据加速模型训练,用模型提升工具体验,再在工具的广泛应用中沉淀更为丰富的场景数据。
截至2025年6月30日,群核科技拥有包含超过4.41亿个3D模型及超过5亿个结构化3D空间场景。
群核科技从2018年开始开源,逐步开放其在数据和算法上的能力。
“开源是我们战略的重要关键词之一。”黄晓煌说,“相比大语言模型,当前空间大模型还处于初级阶段。我们希望通过开源推动全球空间智能技术快速前进,成为全球空间智能服务提供商,推动属于空间大模型的‘DeepSeek时刻’尽快来临。”
二、和视频模型、世界模型相比,空间大模型有什么不同?
据介绍,群核空间大模型是业界首个专注于3D室内场景认知和生成的空间大模型,基于大规模、高质量的3D场景数据训练而成。
近年来世界模型研究成果层出不穷,那么空间大模型与世界模型、视频模型有什么区别?群核科技首席科学家周子寒对此做了解释。
视频生成模型、世界模型面临空间一致性、视角灵活度两大挑战。
Sora、Genie3等视频生成模型,能还原看似丰富的视觉效果,但视觉一致性、可控性方面仍有不足。
World Labs、混元3D世界模型等3D场景类模型,可以保证视角一致性,但在视角灵活性受限,而且模型通常基于游戏数据场景训练,难以很好地实现真实感。
与世界模型相比,群核科技空间大模型有三大核心优势:真实感全息漫游、结构化可交互、复杂室内空间场景生成能力。
(1)真实感全息漫游场景:由于开源3D场景数据稀缺,已有的工作在算法选择上受限,一般通过蒸馏2D生成模型,导致结果视觉真实性不足;基于群核数据集,我们设计并训练面向场景的多视角扩散模型以生成高质量图像。
(2)结构化可交互:可生成包含空间结构、空间关系等丰富物理参数信息的场景语言,相较于传统大语言模型可精准解析空间布局与物体关系,支持参数化场景生成和编辑,为机器人的路径规划等任务提供必要场景可交互信息。
(3)复杂室内空间处理能力:作为全球最大的空间设计平台,沉淀了数以亿计的3D模型和空间场景资产,其InteriorNet也成为了当时全球最大的室内空间深度学习数据集,群核在室内空间数据的优势使空间大模型可处理更复杂的场内场景生成和交互。
得益于上述优势,群核空间大模型可处理更复杂的场内场景生成和交互,并能精准解析空间布局与物体关系,支持参数化场景生成和编辑,为机器人的路径规划等任务提供必要场景可交互信息。
目前,该模型已开源两大核心子模型:空间语言模型SpatialLM(结构化可交互)和空间生成模型SpatialGen(真实感全息漫游)。
三、空间语言模型SpatialLM 1.5:一句话生成结构化3D场景,解决机器人训练数据难题
今日发布的SpatialLM 1.5,是一款基于大语言模型训练的空间语言模型,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。
SpatialLM 1.5不仅能理解文本指令,还能输出包含空间结构、物体关系、物理参数的“空间语言”。
例如,用户输入简单文本描述,SpatialLM 1.5就能生成结构化场景脚本,智能匹配家具模型并完成布局,还支持通过自然语言对现有场景进行问答或编辑。
其核心技术路径是在GPT等大语言模型(LLM)基础上,通过融合3D空间描述语言能力构建增强型模型,使其既能理解自然语言,又能以类编程语言(如Python)的结构化方式对室内场景进行理解、推理和编辑。
据周子寒分享,SpatialLM 1.5的底模是通义千问,然后增加空间数据做训练。没选DeepSeek是因为不需要那么大的底模,需要的是一款“小而美”的模型。
由于SpatialLM 1.5生成的场景富含物理正确的结构化信息,且能快速批量输出大量符合要求的多样化场景,可用于机器人路径规划、避障训练、任务执行等场景,有效解决当前机器人训练“缺数据”的难题。
借助SpatialLM的空间参数化生成能力,可以高效创建具备物理准确性的具身智能机器人训练场景:首先基于自然语言描述生成结构化空间方案,继而自动匹配素材库构建三维环境,最终输出可供机器人进行路径仿真的可交互场景。
现场,周子寒演示了机器人养老场景的应用,当输入“去客厅餐桌拿药”这一指令后,该模型不仅理解了相关的物体对象,还调用工具自动规划出最优行动路径,展示了机器人在复杂家庭环境中执行任务的潜力。
四、多视角图像生成模型SpatialGen:搞定时空一致性,打造可自由漫游的3D世界
SpatialLM解决的是“理解与交互”问题,SpatialGen则专注于“生成与呈现”。
SpatialGen是一款基于扩散模型架构的多视角图像生成模型,可根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像,并支持进一步得到3D高斯(3DGS)场景并渲染漫游视频。
该模型依托群核科技海量室内3D场景数据与多视角扩散模型技术,其生成的多视角图像能确保同一物体在不同镜头下始终保持准确的空间属性和物理关系。
基于SpatialGen生成的3D高斯场景和真实感全息漫游视频,用户可以如同在真实空间中一样,自由穿梭于生成的场景内,获得沉浸式的体验。
对比之下,其他开源视频模型会在移动过程中生成一些幻觉。
SpatialGen有三大技术优势:
(1)大规模、高质量训练数据集:由于开源3D场景数据稀缺,已有的工作在算法选择上受限,一般通过蒸馏2D生成模型,导致结果视觉真实性不足;基于群核数据集,群核科技设计并训练面向场景的多视角扩散模型,以生成高质量图像。
(2)灵活视角选择:已有方法基于全景图生成还原,3D场景完整性较差;或基于视频底模,无法支持相机运动控制等。SpatialGen在这一方面具有优势。
(3)参数化布局可控生成:基于参数化布局生成,未来可支持更丰富的结构化场景信息控制。
其工作流是:给定一个3D空间布局,首先在空间中采样多个相机视角,然后基于每个视角将3D布局转为对应2D语义图和深度图。
将它与文字、参考图一起,通过一个多视角扩散模型生成每个视角对应的RGB图,以及语义图和深度图(户型、家具物体等在相机视角的投影)。最后,通过重建算法得到场景的3DGS。
群核科技发现,基于SpatialGen的能力,能够快速补足现有视频生成能力无法解决空间一致性的问题。
例如一些视频生成类模型,物体在形状和空间关系,在多帧画面中无法保持稳定和连贯。而能用于商业化短剧创作的AIGC,不仅要求每一帧画面“看起来合理”,更要求整个视频序列在空间中像真实世界一样“合理存在”。
四、深度融合3D能力,首款AI视频生成Agent今年发布
群核科技正在研发一款基于3D技术的AI视频生成产品,计划在今年内发布。
“这可能是全球首款深度融合3D能力的AI视频生成Agent。”群核科技AI产品总监龙天泽透露说。
该产品通过构建3D渲染与视频增强一体化的生成管线,有望显著弥补当前AIGC视频生成中时空一致性不足的问题。
空间一致性是指在生成视频的过程中,物体的形状和空间关系在多帧画面中保持稳定和连贯。
据龙天泽分享,空间一致性对人类很基本,但对AI很难。
现有的AI视频创作中,常因视角切换导致物体位置偏移、空间逻辑混乱、遮挡错误等问题。这背后的原因是,多数视频生成模型基于2D图像或视频数据训练,缺乏对3D空间结构和物理法则的理解和推演能力。图像缺少人类感知空间时所依赖的深度线索,因此仅凭自然语言难以让AI建立精确的空间关系认知。
群核科技基于SpatialGen的空间生成能力,搭建了一个高效易用的空间视频创作工具,可以让AI视频生成跨过“时空一致性”陷阱,天然具备空间逻辑,真正理解3D空间运行的规律及内在逻辑。
群核通过“三位一体”来构建可控的视频生成:
(1)SpatialGen:提供强大的理解与生成能力,可低门槛获得高真实还原度的3D场景。用户只需提供 简单的输入,工具就能智能地生成符合真实物理规律和用户具体需求的三维物体、空间关系和运动轨迹。它为后续的视频生成模型提供了 高品质、结构化、可依赖的三维信息基础。
(2)自研渲染引擎:群核科技自研的KooEngine采用光线追踪渲染技术,精确模拟每一条光线的物理运行轨迹 ,渲染出的3D空间和物体。其质感、光影、氛围都无限接近人类在现实生活中的视觉观察效果,这种物理级的真实感 ,为AI模型理解空间提供了与人类视觉认知高度一致的参考依据。
(3)DiT架构AI视频生成模型:融合了扩散模型在高质量图像生成方面的优势,以及Transformer模型在捕捉长序列依赖关系和复杂时空动态方面的强大能力,提升视频效果的丰富性和多样性。结合用户指令,模型能在保证空间一致性的前提下,灵活地生成符合要求的、富有创意的视频片段,进一步刻画3D场景没有呈现的丰富变化(如群星闪烁、水面涟漪)。
未来AI视频创作工具可应用电商、广告、产品演示乃至短视频、短剧创作。
龙天泽现场展示了酷家乐的一个渲染工具页面,左侧提供场景、光影、视频三类模板,用户可以直接点击模板选项,也可以选择下方“AI设计助手”,在聊天框输入需求,它就会进行快速推理,然后自动调出符合需求的对应模板。
结语:推动AI走向物理世界
群核科技团队认为,当前空间大模型处于GPT-2到GPT-3阶段,“空间大模型的ChatGPT时代”还远未到来。
GPT-2的核心是自然语言建模,首次提出用不同prompt来描述不同任务。而SpatialLM的核心是空间语言建模,训练模型基于输入prompt,使用空间语言来完成不同任务。
群核科技希望其所提供的特性,能够弥补一些全球范围内的能力缺失,为迈向AGI添一份力。