当前的人形机器人,普遍停留在"看似能用,实则不够聪明"的阶段,其中泛化能力不足是核心挑战。
谈及这一问题,商汤联合创始人、执行董事、大晓机器人董事长王晓刚在博鳌亚洲论坛2026年年会现场向观察者网表示,主要原因有两个:一个是数据,一个是模型。
“之前是由人来操控真机,靠真机采集数据。这种采集数据的方式不对,”王晓刚说,这样的数据不仅不是在人类真实生产生活当中采集的,而且效率低。“过去几年总共积累10万小时的数据,和我们要达到千万小时的目标,差距非常大。”
![]()
王晓刚在博鳌亚洲论坛2026年年会发言博鳌亚洲论坛
为此,2025年,大晓机器人提出“环境式数据采集”,利用第一视角的眼镜、穿戴式设备,以及第三视角的传感器,在人真实的生产生活环境中去记录人的行为。
这样一来,“像保洁阿姨等工人就可以在工作过程当中自然地把这些数据采集下来,从而快速实现数据积累。如果有1000人携带这样的采集设备,一天就有1万小时的数据积累。”
王晓刚还提到,用机器采集的数据只限于机器本身,一旦换了个机器型号,又要重新进行数据采集。而“环境式采集”到的人的数据,能做到“一脑多形”,数据可以用在不同类型机器人的本体上。
至于模型,“以前的VLA模型与本体强相关,机器人收到命令之后,直接输出本体的参数。现在VLA只能完成像分拣货物、拿放水杯这样的简单任务。”王晓刚说,现在要用“世界模型”。
他解释道,世界模型可以让机器人在和世界交互的时候,更本质地理解物理规律是什么,人的行为逻辑是什么,更具通用性且能完成复杂任务。
他认为,未来,世界模型和VLA模型不一定非此即彼,二者可以协同。
“比如在机器人的‘大脑’上有两块GPU,一块是世界模型,当给到它复杂任务时,它会像生成剧本一样,规划出接下来怎么一步一步走。当到了某一个比较简单的具体任务时,VLA可以帮它执行。执行过程中如果发现眼前看到的情景和‘脑子’里想象的不一样,这时候它的世界模型又会重新启动,重新去规划和预测未来的剧本。”王晓刚说。
本文系观察者网独家稿件,未经授权,不得转载。





京公网安备 11011402013531号