作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com
人工智能正在吟诗作画,我们人类却在打扫卫生。
这句话几乎描述出了今天所有人对AI的困惑,一边是模型底层技术的突破,另一边却是AI进入真实世界后的无力感。一个验证码能摧毁一个压缩全世界知识的AI大脑,一个垃圾桶能绕晕一个拥有30多个自由度的人形机器人。
但AI的发展,并不应该如此“见光死”。
群核科技联合创始人黄晓煌在近期群核TechDay上描述出这个现状后,他也展示了群核对解决这个挑战的最新动作。
这家拥有全球最大室内空间智能数据资源的公司,在8月25日举办了自己的TechDay,其中的重头戏就是再度开源了两款空间智能模型。
第一个是SpatialLM 1.5,它是群核此前在GTC期间发布的SpatialLM的最新迭代版本,此前的模型开源后,立刻爬上HuggingFace 开源模型榜前三,作为群核重要的空间语言模型,这一次它完成了从底层开始的重塑,并增加了交互能力;
另一个则是一款全新的空间生成模型,SpatialGen。它的样貌更接近大家熟悉的视频生成模型,但它想解决一件其他视频模型没能解决的问题——时空一致性。
对于习惯了一些一惊一乍的模型发布的人们来说,这两个模型的气质很是不同,它们并非试图在数字世界里生成更逼真图像或视频的炫技产品,而是开始从更底层的逻辑出发,想要为解决AI的“见光死”问题做些微小但深刻且真实的贡献。
1
只有群核能提供的空间智能新思路
在TechDay上,群核首席科学家周子寒现场演示多个demo。其中一个的场景很有代表性——当他输入指令“帮我生成一个适合老人居住的卧室”,SpatialLM 1.5的系统不仅理解了“老人”这一模糊概念,在场景中放置了轮椅,而且还能根据“需要一个带扶手的单人床”的追问,精准地从素材库中找到对应模型并放置在合理的位置。
在另一个demo里,模型甚至能根据“帮我规划从卧室床边到客厅餐桌的路径”的指令,自动生成最优路线,直观地展示了其在具身智能训练中的巨大潜力。
这一切交互的背后,是模型正在生成和编辑一段段精确的“空间语言”代码。
在全球科技巨头对“世界模型”(World Model)的狂热追逐中,主流路径是“视觉优先”。无论是OpenAI的Sora,还是Google的Genie,它们都试图通过暴力计算(Scaling Law),让模型从海量的视频数据中“悟”出物理规律。这是一种归纳法,期望通过模拟无数水滴的下落,来理解重力。
而群核此次发布的两个模型,则可以说提供了另一条路径:“结构优先”。
SpatialLM的核心,是一种AI哲学的根本性转变。当前主流的多模态技术,在处理3D信息时,往往是将其“拍扁”成点云或图像Token,再与语言Token对齐,这是一种“翻译”或“转码”。总显得不那么直接。
群核选择了一条不同的道路。“如果我们更多的是把它当作是CAD(计算机辅助设计)的一个逆过程的话,你就会天然觉得它就应该是一个语言模型。”群核首席科学家周子寒说。
这一视角的转换至关重要。在CAD的逻辑里,所有三维物体和空间关系,本质上都是由点、线、面等参数化、结构化的几何指令构成的。它不是一堆模糊的像素或点云,而是一段精确的、可被机器理解和执行的代码。
群核的SpatialLM 也按照这个路线不停演进,在SpatialLM时它更多先瞄准空间理解的任务建立自己的能力,一个有趣的细节是,在SpatialLM 1.5上,群核开始叫它“空间语言模型”,它开始从理解延展到更多能力,最明显的,是可以支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。
这是一个全新的思路,也只有拥有大量结构化空间语言资源的群核能够去做更底层的尝试。
如果说SpatialLM是从“语言”和“结构”的维度为AI进入物理世界打下地基,那么一同发布的SpatialGen则从“视觉”和“生成”的维度,提供了一套同样深刻但路径迥异的解法。
SpatialGen更侧重于视觉真实感的一致性,但它没有去“模拟”一个连续的世界,而是选择去“构建”一个一致性的空间。其核心是一个多视角扩散模型,能够根据一张参考图和空间布局,生成任意指定相机点位的、空间上完全一致的多张图片。
当Sora们试图通过模拟海量水滴下落来理解重力时,群核选择先定义清楚杯子和桌面的参数与关系。前者追求的是视觉上的“看起来像”,而后者追求的是物理上的“本来就是”。
“你可以任意指定这个相机的轨迹,它可以是跳跃的,”周子寒解释道,“它不用过多地依赖这种时间的连续性。”这种“跳跃”的能力,恰恰是对当前视频生成模型“一致性”困境的一种巧妙解答——连续生成视频,意味着模型必须处理A点到B点之间所有帧的连贯性,这极大地增加了出错的概率。“你未来要从A到B,你要让A到B一致,你要把A到B中间所有的(帧)都得做,那你犯错的概率就会高得多,”周子寒说。但从实际效果出发,跳跃式是个更好的选择。
当天展示的另一个demo也生动地诠释了这种差异:
当你给SpatialGen提供一个老房子的几张照片,它随即能生成具有时空一致性的多视角图像,再进一步生成老房子的3D高斯场景和渲染漫游视频。
SpatialGen先基于这些单张或有参考布局的图片,去生成多视角的空间一致性的图片模型,然后再进一步通过工作流去获取3D场景高斯点云以及最后的比较灵活视角的漫游视频。
在生成的视频中,你可以自由地在这个老房子内“全息漫游”。无论是墙上的老旧海报,还是柜子上摆放的物件,在任意视角和运镜下都保持着惊人的一致性。
而在另一个有一些“剧透”未来方向的demo中,你可以隐约看到这些模型结合在群核的空间智能能力之下,会怎样进化下去。
在一个彩蛋demo里,群核的三位公司创始人化身舞者,在十几个分镜和复杂的360度运镜下,人物形象、动作与背景空间都保持了高度的连贯与合理,彻底告别了其他AI视频模型中常见的“群魔乱舞”式崩坏。
对于包括商业视频在内的,对一致性有更严格追求的场景来说,它能发挥的作用都足够让用户们充满想象了。
1
来自真实世界的AI公司,才能解决AI进入真实世界的问题
在群核这场热闹的TechDay里体验和了解这家公司在空间智能上做的一切工作,你有时还是会感到神奇。
过往人们所熟悉的酷家乐,和它一直以来在做的事情,就这样在AI爆发的时代统一到了空间智能这件事上。你能明显感到包括SpaitalLM1.5和SpatialGen的独特之处,你越了解这家公司,会越发明显感到许多事只能群核来做。
回看这家公司的发展历程,似乎有某种偶然性,但如果你回看整个AI发展历程里起到关键作用的诸多公司,会发现偶然很多时候是有它内在的逻辑存在的。
对群核来说,故事的起点是GPU。黄晓煌从NVIDIA出来创业,最初想用GPU加速物理世界的渲染,却遇到了一个大挑战,在当时,同时降低算力成本和提升速度是个难题。群核想出的解法是基于云端搭建GPU服务器,利用云端高性能计算来实现仿真渲染,这带来了酷家乐这个云端3D设计工具。
在当时来看,它是一个创始团队的技术背景和技术信仰与现实业务需求之间结合的产物,但今天来看,它为群核在物理世界高质量数据的沉淀开了头。
随着数据的积累,群核也开始意识到这是一个富矿,2018年群核发布了InteriorNet数据集,立刻有硅谷的科技公司找上门,对这个数据集表现出极大兴趣,这进一步让群核确认这些3D数据的价值。
之后,随着酷家乐成为全球最大的空间设计软件,群核的数据资源更加丰富,而酷家乐背后的思路也让群核在今天找到的数据获取的“第三路径”有了可能。
对于数据的收集来说,传统意义上第一条路径是成本高昂的实地扫描,第二条路径是人工合成数据,过去酷家乐的沉淀也大多来自这条路,然后它们再通过群核的平台SpatialVerse合成数据引擎去完成处理。而SpatialLM1.5代表的第三条路是参数化空间场景的自动生成,由此带来完全不同的数据,以及对这些数据的使用方式。
如周子寒分享的,酷家乐本身对结构化数据的理解与其他基于视觉的路线就有不同。酷家乐的业务逻辑——让设计师用参数化的工具进行室内设计,并确保设计方案可以被精准地生产和制造——决定了其产生的数据必须是结构化的。
这埋下了将空间数据以“语言”的形式来理解的技术思路,并最终走出了很有群核风格的第三条路。
历史总有相似的韵脚。英伟达并非为了AI而发明GPU,Google也并非为了AI而做搜索,它们的偶然最终都成为了必然。一个原因,是源于对底层技术的持续追求。另一个更重要的原因,是在AI每一次遇到关键挑战时,它们恰好已经在那里了——当AI需要海量并行计算,英伟达的GPU成了关键;当AI需要压缩世界知识,Google的互联网数据成了最好的养分。
而今天,AI进入物理世界,开始面对“见光死”的挑战,当它面对真实环境充满无力感时,群核这样来自真实物理世界的AI公司,以及它在酷家乐时期无心插柳积累下的结构化数据,成为了重要的解药。它某种程度上像是空间数据版的Google,也像是空间智能里的英伟达。酷家乐时期,业务看起来围绕着具体的家装场景,但“群核”这个名字所代表的对计算和技术的初心从未改变。正是这种坚持,最终将看似接地气的业务,转化为了当AI走进物理世界时最稀缺的真实数据资源,成就了今天的群核。酷家乐为代表的生长时期,给今天群核带来了挖不尽的空间智能富矿,让它成为一个空间智能的“宝藏公司”。
“我们发现这些大量积累的数据是可以用来训练模型的,”黄晓煌在TechDay上完整地阐述了这个逻辑闭环,“这些模型,又可以进一步强化我们工具的能力,我们在过程当中就发现它形成了一个数据飞轮。”
“我们希望它是一个能够自己反馈的系统,未来它会对自己摆的东西去反思,然后有推理和思考的能力,然后让这些新的数据滚动起来,再让模型变得更强。”周子寒说。
AI时代的酷家乐和它一整个产品体系,会长在这个空间智能系统之上。据黄晓煌透露,群核在SpatialLM的基础上开发了新的编辑工具,而这个建在新的大模型基础上的工具,设计的智能程度和正确率都比原有的传统AI强很多,同时它可交互,可修改、可互动,这些都是传统的2D AI所无法实现的。
而未来的群核,也会变成一个空间智能更底层基础设施般的存在——
“我们定位是全球空间智能服务提供商,我们主要做的是空间编辑工具,由工具来生成海量的数据,由数据再来生成大模型,以此来形成一个循环,滚动发展。”黄晓煌说。
空间智能是解决真实世界问题的技术,它需要一个生长在真实世界的公司来完成这个使命,一个十分接地气,又从未放弃技术理想的群核,正迎来它的关键时刻。
点个爱心,再走 吧!