环球网
当人工智能的热潮从语言大模型(LLM)蔓延至物理世界,机器人究竟需要一颗怎样的“大脑”?在近日举办的第八届北京智源大会(BAAI Conference)上,星源智联合创始人、智源研究院具身交互世界模型研究中心负责人孙振国正式发布首个具身交互世界模型——ω-EVA(Omega-EVA),旨在对当前世界模型技术路线进行纠偏:让AI从单纯的“视频生成”走向真实的“行动决策闭环”。
![]()
当世界模型不再“纸上谈兵”
孙振国认为:“世界模型不应该只在训练时预测未来,而应该真正参与动作生成。”
据介绍,目前的行业现状是,大多数世界模型仍停留在“离线预测”或“环境模拟”阶段,作为辅助功能存在。机器人在执行任务时,往往只能被动执行指令,无法预判动作带来的连锁反应,导致在复杂物理环境中作业稳定性不足。
针对这一痛点,星源智发布的ω-EVA模型首创了“预演、验证、行动”的决策闭环逻辑。与传统的“看见即行动”不同,ω-EVA让机器人在执行指令前,先在模型内部“想象”动作带来的环境变化,并根据推演结果优化动作方案。
“多模态也不是简单增加输入,而是让每种感知以合适的结构参与决策。”孙振国强调,具身模型的终极目标应是从一次性的预测,走向持续感知、想象、修正,并从真实交互中更新自己。
面对“是否忽略了语言理解”的质疑,星源智CEO刘东明确表示,星源智的具身大脑基座依然是基于VLM(视觉语言模型),具备极强的语义理解能力。但ω-EVA的突破在于补全了“预测”与“动作”之间的短板。
“现在的世界模型更多是以语言作为条件,这在具身领域天然存在不一致性。”孙振国解释道,语言描述具有主观性和多样性,容易导致模型决策的不确定性;而以“Action(动作)”作为条件输入,是唯一的、可控的。ω-EVA将动作(如手腕位姿、末端执行器状态)作为核心约束,让模型对未来状态的预测具备了唯一的“标准解”。
这一技术路线的选择,直接决定了模型的效率与部署成本。相较于“视频生成”路线(如生成未来10秒的像素级画面),星源智选择了隐空间(Latent Space)建模。
“我们不会做视频生成的技术底座,我们更关注的是关键的时效或者关键状态的转变。”孙振国透露,ω-EVA参数量仅1.2B,全程在特征空间推理,无需生成像素级视频,这使其算力消耗远低于竞品,得以实现端侧部署。
![]()
端侧部署与“卖铲子”的生意经
在智驾领域,高延迟是致命的;在具身智能领域亦是如此。刘东描述了端侧部署的必要性:“如果机器人上面带着十几个摄像头和激光雷达,每秒几个G的数据量传到云端,再等指令回来,时延几秒后,机器人可能已经撞上了障碍物。”
ω-EVA的轻量化设计(1.2B参数)使其能够在星源智自研的T5、N5算力模组上高效运行,真正实现了脱离云端的独立思考。这也构成了星源智独特的商业壁垒——做具身智能时代的 “英伟达”,而非自己下场造机器人。
“我们不会做本体。”刘东多次重申这一立场。他将当前的行业比作十年前的自动驾驶:“2015、2016年大家瞄着L4、L5,但L2还没落地。现在具身智能也是一样。”他认为,未来将是“分工”的时代:家电企业和车厂拥有强大的硬件制造能力,但缺乏“大脑”。
星源智提供的正是这套软硬一体的解决方案。
这一策略得到了资本的青睐。刘东透露,公司成立仅十个月便融资十亿,核心在于“价格优势”与“落地能力”。“对于投资者来说,既然有很好的标的,价格又远远低于市场平均价格,他们是很愿意投资的。”
在现场的Demo展示区,ω-EVA的能力得到了直观验证: 机器人不再盲目移动,而是在行动前预演每一步对后续路径的影响;在现场展示的华容道互动场景中,机器人在有限棋盘内理解滑块、空格与移动约束之间的关系,并持续评估每一步动作对后续路径的影响。观众可现场打乱棋局,机器人通过观察当前格局、理解约束关系,最终自主完成还原任务。这一过程直观呈现世界模型的核心能力:机器人能够在动作执行前预演后果,并基于状态变化完成路径规划与动作修正。
尤为引人注目的是具身叉车项目。刘东介绍,传统叉车自动化方案(如AGV)无法应对卡车形态各异、货物杂乱的“非结构化”场景。
交互是核心,数据是护城河
对于未来的技术演进,星源智展现出了清晰的图景。孙振国将当前的世界模型路线分为四类:视频生成、表征学习、数据生成器,以及星源智主推的“交互世界模型”。
“交互是世界模型非常核心的东西。”他认为,如果世界模型只是作为训练信号的约束,那它只发挥了10%的性能;只有让它参与到改变动作的环节,形成闭环,才能释放其最大价值。
在数据层面,不同于大模型依赖互联网公开语料,具身智能面临巨大的数据瓶颈。星源智通过与物流、叉车等行业的合作伙伴建立深度数据共享,积累了宝贵的场景数据。
“数据利用的效率是关键。”孙振国表示,VLA(视觉语言动作)模型依赖高质量的成功数据,而世界模型可以利用失败的轨迹数据。工作8小时,VLA可能产出3小时高质量数据,而世界模型能提升至6-7小时,大幅降低了数据获取成本。
从“看见世界”到“预判后果”,星源智的ω-EVA正在试图解决机器人走进现实世界的最后一道难关。在这个喧嚣的AI时代,这家年轻的公司选择用“行动闭环”在每一个具体的场景中(物流、巡检、服务)扎下根来。正如刘东所说,具身智能的竞争焦点已从“能不能动”转向“动得稳不稳、准不准”。而星源智,正试图成为那个让机器人“动得更准”的幕后推手。





京公网安备 11011402013531号