当前位置: 首页 » 资讯 » 新科技 » 正文

杭州跑出的AI独角兽,突围大模型的“第二战场” | 甲子光年

IP属地 中国·北京 编辑:赵云飞 甲小姐甲子光年 时间:2025-08-27 00:19:58

不仅是杭州六小龙,更是空间智能“破壁者”。

作者|Iris

编辑|王博

进入2025年,AI行业正经历一场微妙的转变。

虽然大语言模型仍在持续演进,但业界已经清晰地感受到:Scaling Law带来的性能提升正在放缓。当算力堆叠不再是万能解法,AI的下一步该往哪里走?

答案或许藏在我们最熟悉的物理世界中。与过去火热的文本大模型和图像生成不同,这一波热潮——空间智能聚焦于AI对3D物理世界的认知与理解能力。「甲子光年」在《2025中国AI新风向30条判断》中,将物理AI列为AI的三大分支之一。物理AI不再局限于数字环境的运算,它能够感知、理解三维世界的空间关系和物理行为,并在现实世界中执行复杂操作,被广泛应用于机器人、自动驾驶、材料研究、气候预测、航天探索等领域。

大语言模型仅仅是这场AI马拉松的开头,当大语言模型的军备竞赛放缓,巨头们接连抢滩空间智能这个“第二战场”。

8月5日,谷歌DeepMind宣布推出通用世界模型Genie 3;8月12日的SIGGRAPH大会上,一身皮衣的黄仁勋也发布了新的世界模型Cosmos Transfer-2;上个月,腾讯在世界人工智能大会上发布了开源世界模型混元3D世界模型1.0。据The information报道,字节跳动也在推进世界模型项目。

在巨头竞相角逐的同时,一家杭州公司,正在成为在这场空间智能竞赛中的“中国变量”。他们在这个赛道的积淀甚至要回溯到12年前。

这家公司就是“杭州六小龙”之一的群核科技——中国最早聚焦3D空间模拟构建的公司,并且已经成为全球最大空间设计平台。

在满足中国乃至全球最复杂、最多元的设计需求的过程中,群核沉淀了海量的、物理正确的室内物理数据,他们得以用一种不同于硅谷巨头的方式,探索空间智能的路径。

8月25日,群核智能发布了业界首个专注于3D室内场景认知与生成的空间大模型。目前,该空间大模型已发布两大核心子模型:空间语言模型SpatialLM V1.5和空间生成模型SpatialGen,其中SpatialGen已在HuggingFace、Github、魔搭社区开源。

1.真正用“空间数据”训练的大模型来了

当前大模型的竞争焦点已从二维世界(文字、图片)转向三维物理世界。然而,空间大模型仍处于“GPT-2时代”,尚未达到类似GPT-3的“涌现能力”,技术路径尚未收敛——玩家们正以不同方式探索AI认知世界的可能性。

目前的技术路线有以下类型:

1.视频生成派(如Sora、Genie):能以惊艳的视觉效果打动用户,但因缺乏3D结构,视角切换时会出现物体错位、形态突变等“穿帮”问题。

2.3D世界模型派(如WorldLabs):能保证视角一致性,但灵活性较弱,且训练数据多来自游戏而非真实世界,导致真实感不足。

真正的挑战在于:如何让AI既深刻理解物理规律,又能灵活生成符合现实逻辑的三维世界?

群核空间大模型则用不同于以上两种的路径回答了这个问题——专注“室内空间本身”,而非泛化的物理世界。其核心突破在于持续积累的室内空间结构化认知,使其相比视频模型在视角一致性上更有保证,对比其他3D场景模型,也拥有更高的漫游自由度。

群核科技此前在室内设计领域的深厚积累,让他们在室内场景打出一张“王炸”,成为业界首个专注于3D室内场景认知与生成的空间大模型。其核心由两大开源模型构成:空间语言模型SpatialLM 1.5和空间生成模型SpatialGen。

这是全球少有的面向室内场景的物理正确空间大模型,相比其他视频生成模型和3D生成模型,有三大核心优势:真实感全息漫游场景、可交互性、复杂室内空间处理能力。

空间理解模型SpatialLM 1.5是基于大语言模型训练的,基座模型为Qwen3,它可以理解并使用一种结构化、可交互场景的描述语言。通过点云、文本等多模态的输入,该模型可以生成含空间结构、空间关系等参数化信息的场景语言。其实,SpatialLM 1.5是个增强模型,其前代版本 SpatialLM 1.0 今年3月开源后,迅速登上Hugging Face趋势榜前三,目前已有初创企业基于其代码和架构训练出自有模型,验证了开源模式的技术辐射力。

空间生成模型SpatialGen是一款基于扩散模型架构的多视角图像生成模型,它的原理是首次基于多视角扩散模型+3DGS重建技术,SpatialGen 可根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像,并支持进一步生成3D高斯(3DGS)场景并渲染漫游视频,并且支持任意视角切换、路径漫游,光照、纹理、遮挡关系全程物理一致。

SpatialGen的多视角一致性演示

从群核TechDay现场来看,他们还在探索空间交互行动方向的模型。其实他们的路径很清晰,就是沿着空间智能的几个关键项:空间理解、空间生成、空间交互行动的路径往前跑。

2.空间智能竞赛中的“数据飞轮

当前大模型的进化正面临一个关键矛盾:当互联网公开数据逐渐耗尽,未来靠什么喂养这些"数据怪兽"?尤其在空间智能领域需要的是空间数据,这个矛盾更加尖锐——需要真实世界的3D扫描和传感器数据,这种物理数据不仅采集成本高,处理难度也远超文本。

Scale AI的爆发式增长恰好印证了这个趋势,作为AI数据供应商,它在2024年上半年收入激增4倍。这背后反映的其实是整个行业正在为数据疯狂内卷——特别是室内空间数据,因为涉及复杂的空间结构和交互逻辑,成为最难啃的硬骨头。

空间数据也分室内和室外两个视角来看,室内数据是更困难的。群核科技联合创始人兼董事长黄晓煌在现场演讲中提到,相比室外,室内空间的数据更难获取、空间复杂度更高、交互需求更高、这些都让室内空间的的认知理解训练变得更难。

首先,自动驾驶车辆可以边行驶边采集数据训练模型,但多数物理世界中的设备或机器人不具备自主采集训练数据的能力。 其次,室内空间包含更复杂的结构和交互逻辑,相比室外单纯的道路数据(如自动驾驶),需要处理家具布局、物品属性、人类活动轨迹等多维度信息。

最后,室外数据只需测绘资质就能采集,但获取室内数据需要得到每个空间所有者的许可,考虑到隐私问题,要规模化获取100万甚至1亿个室内空间的数据几乎不可能实现。

这种稀缺性直接导致:当文本和图像领域可以通过海量互联网数据训练大模型时,空间智能领域却面临"无米下锅"的窘境。

而群核科技在酷家乐上的数据技术积淀恰恰可以弥补这一短板,也成为他们的破局之道——酷家乐的广泛应用积累了丰富的场景数据。这里面有个关键节点是2018年,群核科技联合英国帝国理工大学、美国南加州大学等发布了InteriorNet——全球最大的室内空间深度学习数据集,为推动后续群核在空间智能的探索提供了数据支撑。今年WAIC上,「甲子光年」也看到他们探索的数据处理的新范式,通过开源3D高斯语义数据集InteriorGS,首次将3DGS技术引入AI训练。

另外,「甲子光年」发现,空间智能的实现与数字AI方法不完全相同,需要合成数据等技术的参与。在AI训练过程中,3D训练数据由高度精确的计算机模拟生成,这些合成数据包含与现实世界的空间关系和物理规则有关的信息,既充当数据源,也作为AI训练场。

群核科技可能是全球唯一一家能做包含真实物理规律的、大规模的高质量合成数据的公司。

这些高质量室内数据是群核不可复制的技术壁垒,它提升了群核科技在空间智能领域的技术上限,也让群核科技得以在视频生成和3D场景建模之外,探索差异化的技术路径,并进一步进化形成围绕工具—数据—模型驱动的技术飞轮。

这一飞轮是如何转动的?

有了这层数据基础,群核左手探索数据应用场景,右手训练模型。

在数据商业化应用上,群核基于InteriorNet的起点,推动群核空间智能平台SpatialVerse。它通过搭建一个「数字道场」,让智能体通过高质量数据的充分训练,能够真正获得泛化能力,应对现实中的千万种复杂场景。

此前开源3D场景数据稀缺,已有的工作在算法选择上受限,一般通过蒸馏2D生成模型,导致结果视觉真实性不足;而群核科技十余年间积累的海量高质量3D可交互数据 ,则成为群核空间大模型的核心驱动力,使得模型进一步展现出理解与生成能力与较强的空间一致性,并加速了模型迭代。

这些数据使得模型以极低的门槛获得高真实还原度的3D场景——这一能力又提升了酷家乐等原有工具的深度体验,比如AI+设计的智能化应用。本次发布的SpatialLM 1.5,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。用户只需提供简单文本输入,可自动生成结构化场景脚本,智能匹配家具模型并完成布局,并支持后续通过自然语言进行问答或编辑。这些在工具中的落地应用,使得设计师和业主能够更高效地进行创意探索与方案验证。

而工具体验的优化也带来更多的场景数据沉淀。随着空间智能技术的提升,群核科技工具矩阵的触角,也从室内家居设计领域,逐渐蔓延至实时仿真渲染、工业智能制造,以及具身智能合成数据训练等新兴产业。这些工具在不同场景的落地应用,反哺了数据和模型能力,这种“工具—数据—模型”的正向循环持续深化技术护城河也让群核科技数字经济的上半场建立起成熟的商业模式,并在下半场加速推进空间智能的产业融合。

群核科技联合创始人兼董事长黄晓煌

一言以蔽之,海量数据加速了模型迭代,模型的升级进而提升工具体验,工具优化进一步带来更丰富的场景和数据,由此,群核构建了一个正向循环的空间智能飞轮。

外界看到的是,它并不是过去大家印象中的那个群核科技了。

实际上,让AI走向物理世界,是黄晓煌十几年前就想做的事情。

“我在UIUC读博士时,专业是用GPU来做高性能计算。我的导师给我的课题是:当未来算力提升1000倍,你要研究的方向是什么?当时就做了两个,一是模拟人脑的运行,二是模拟物理世界的运行。我选择的是后者。”黄晓煌曾向「甲子光年」回忆道。

选择开源路径,也证实了他们坚持搭建空间智能基础设施的决心。他们认为开源的价值,在于减少重复劳动,让更多人加入到前沿技术探索中,有助于技术更快地升级和应用。为了推动技术平权,做大蛋糕,他们选择开源来铺好AI走向物理世界的桥梁。

3.真正能用起来的大模型,才能进入下一轮

当大模型的竞赛已经来到下半场,行业的关注逐渐从大模型的性能参数,转移至落地应用。

「甲子光年」在今年的世界人工智能大会(WAIC)上观察到,只不过两三年光景,大模型领域就从"百模大战"的热闹场面,变成了几个头部玩家的擂台。相比门庭若市的具身智能展厅,今年的大模型展厅显得更为低调务实,我们在现场最直观的感受是:大家都在试图讲好AI落地的故事,让AI真正成为生产力。

然而,如今仍在牌桌上的玩家被迫面对一个关键挑战:绝大多数炫技般的DEMO演示,在真实产业场景落地中遭遇"水土不服",难以落地。视频领域的空间一致性难题就是典型案例——生成式AI可以轻松炮制单帧精美画面,却在连续帧的物理合理性上漏洞百出:物体凭空消失、材质突变、光影紊乱。这背后的原因是多数视频生成模型是基于图像或视频数据训练,这些算法通过海量视频数据学习到时空模式的关联性(例如“走路时手脚如何摆动”),但本质上缺乏对3D空间结构和物理法则的的理解和主动推演能力。

群核这次发布的SpatialGen模型,就有希望在AI视频创作领域发挥生产力。它让 AI 对空间的认知严格符合真实物理规律,从底层解决 2D 感知到 3D 理解的映射偏差。并首次基于多视角扩散+3DGS重建技术,从源头解决空间一致性问题。

SpatialGen支持任意视角切换、路径漫游,光照、纹理、遮挡关系全程物理一致。这使得模型在复杂场景中仍可以保持空间关系、物体布局的稳定性,可以解决视频创作中的空间穿帮问题。

据透露,群核还在研发一款基于3D技术的AI视频生成产品,并计划在今年内正式发布——这或许是全球首款深度融合3D能力的AI视频生成Agent。通过构建3D渲染与视频增强一体化的生成管线,有希望弥补当前AIGC视频生成中时空一致性不足的问题。

这样的技术变革也加速了AIGC进入商业化生产的流程,这是因为影视短剧、电商直播、工业设计等行业,不仅要求每一帧画面“看起来合理”,更要求整个视频序列在空间中像真实世界一样“合理存在”。

另一个可能被解决的行业壁垒在于机器人训练场景。数据少、成本高是目前具身智能的痛点,当前人形机器人的发展仍处于早期阶段,其真实场景下的物理交互数据积累极为有限,远未达到大语言模型训练所需的PB级数据规模。大规模真实数据的采集成本高昂,获取大量真实有效的数据需投入大量人力、物力与时间,比如在复杂环境中布置众多传感器和监测设备,这不仅设备采购费用高,还涉及安装、维护和更新成本。

SpatialLM 1.5生成的场景富含物理正确的结构化信息,且能快速批量输出大量符合要求的多样化场景,,恰好可以为具身智能训练提供切实可行的数据技术路径,也有望缓解具身智能的“数据荒”。

以养老场景为例:当用户输入"去客厅拿药"这样的自然语言指令时,系统能够自动生成包含完整空间参数的环境方案,并可视化呈现最优行动路径。SpatialLM的空间参数化生成能力,可以高效创建具备物理准确性的训练场景:首先基于自然语言描述生成结构化空间方案,继而自动匹配素材库构建三维环境,最终输出可供机器人进行路径仿真的可交互场景。

SpatialLM 1.5 机器人训练演示demo

这种技术突破的背后,是群核构建的「空间智能飞轮」正加速转动——数据驱动模型,模型优化工具,工具反哺数据,形成闭环。正如快手依托短视频生态推动可灵迭代一样,群核凭借酷家乐沉淀的海量室内物理数据,正在空间智能领域复现“工具—数据—模型”的技术增强回路。

这一飞轮支撑了群核科技的商业护城河。在技术研发与商业应用的正向循环驱动下,其资本进程加速推进「甲子光年」注意到,群核科技于8月22日更新了招股书,继续推动在港交所的上市进程,冲刺“全球空间智能第一股”。他们的愿景则是通过开源推动全球空间智能技术快速前进,成为全球空间智能服务提供商,推动属于空间大模型的“DeepSeek时刻”尽快来临。

这并不是在炒概念,从酷家乐的数据积累到群核空间大模型的战略升级,群核的技术飞轮效应正在持续兑现。

杭州六小龙已经创造了一个“DeepSeek时刻”,下一个“DeepSeek时刻”或许离我们并不遥远。

(封面图及文中配图群核科技)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。