当前位置：首页 » 资讯 » 新科技 » 正文

世界模型成具身智能“新欢”，VLA何去何从？

IP属地中国·北京 南方都市报 时间：2026-03-28 22:15:37

面对机器人不够聪明的现实窘况，不少创业公司开始押注世界模型这条技术路线。宇树科技创始人王兴兴在3月中旬的英伟达GTC大会上判断，在通往具身智能ChatGPT时刻的路径中，世界模型几乎“看不到天花板”，是更主流的技术方向。
有了世界模型充当“大脑”，机器人可以在“脑海”中的模拟和推演不同行动可能带来的后果，提升了决策性能。商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚近日接受南都记者采访时形容，世界模型能让机器人了解外部世界的物理规律，并像人类一样进行思考判断。
需要厘清的是，具身智能领域的世界模型，与学者李飞飞等探索的世界模型产品并不相同。王晓刚解释称，李飞飞所做的世界模型更偏视频生成，可构建供用户访问的3D世界，应用于游戏或虚拟现实场景。具身智能语境下的世界模型，则用来指导机器人与物理世界交互。

商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚参加博鳌亚洲论坛2026年年会。
过去一年中，在具身智能领域“唱主角”的方案是VLA（视觉-语言-行动）模型。VLA集成了视觉感知、语言理解和动作生成，将感知输入直接映射为控制动作，类似于模仿人类将看到的事物、所理解的语言指令转化为行动的过程，但被认为缺少对物理世界的结构化理解。
一些业界知名人士已公开表达VLA的局限性。王兴兴说，VLA模型面临泛化能力受限等瓶颈，天花板更低。英伟达机器人主管Jim Fan也在2月初发文称，2025年，具身智能行业由VLA模型主导，但2026年将成为世界模型首次为机器人领域典型基础的一年。
目前，包括宇树科技、大晓机器人在内的企业已推出各自的世界模型。3月中旬，大晓机器人将旗下40亿参数的世界模型“开悟世界模型3.0”开源。公司方面介绍，这款世界模型并非像VLA那样在大语言或视觉模型后简单附加运动接口，而是以自然界基本物理规律与因果规律为认知根基，打破传统具身智能“行为模仿”的技术局限。
王晓刚告诉记者，训练VLA模型主要依赖昂贵且稀缺的真机数据，这类数据由人工操作机器完成采集。而世界模型更多转向互联网上的图像和文字数据，这些数据记录了大量的物理规律，“相当于你在互联网上看了很多课本，教你物理定律是什么，人的行为逻辑是什么”。
“但光读书还是不够。”王晓刚进一步介绍，机器人世界模型还需要获取人类在真实环境中如何工作、生活，以及如何与物理环境交互的数据。在此基础上，即使理解了物理世界的规律、知晓了人类的操作方式，最终仍需将这些行为映射到机器的参数上，因此需要少量的真机数据。
不过，世界模型的顺利落地并非易事。王兴兴说，视频生成模型可以在虚拟空间中可实现近乎零误差、极高保真的模拟效果。然而，把这一模型部署到机器人上时，即使只有一毫米的偏差，也可能导致与实际效果的巨大差异。要实现视频生成世界模型和真机操作之间的对齐，依然极具挑战。
随着越来越多机器人厂商拥抱世界模型，VLA模型将何去何从？一位头部具身智能数据服务商的联合创始人向南都记者表示，二者可能会融合，VLA要依托世界模型对世界的理解能力。
王晓刚同样认为，短期内，二者是相互协作的关系。世界模型先在“脑海”中预演未来可能发生的各种情景，而具体的执行交由VLA模型完成。从长期来看，世界模型很可能将VLA的能力全部吸收整合。
2025年6月，阿里巴巴达摩院、湖畔实验室和浙江大学研究团队发布一项研究，将VLA模型和世界模型集成在一个框架中：世界模型通过结合动作与视觉信息理解来预测未来状态，这对于成功执行诸如抓取等灵巧操作任务至关重要。由于世界模型能预判潜在动作的后果，这有助于做出更明智的决策，从而优化动作选择，最大限度地提高任务成功的概率。同时，框架中的动作模型基于输入的图像生成后续动作，动作生成过程增强了对潜在行为模式的理解，从而反向促进了世界模型的视觉生成能力。实验结果表明，融合之后的模型性能优于独立的动作模型和世界模型。
由于当下行业内尚未形成统一且成熟的技术范式，宇树科技在招股书中称公司采取世界模型与VLA并行推行的策略。推出过VLA模型的智元机器人，也在布局世界模型。智元Genie业务部生态及解决方案总监沈咏剑在3月25日接受南都等媒体采访时透露，目前智元内部有很多科学家和工程师在世界模型方向上做技术探索。
“从重要程度来讲，我觉得它的重要性不逊于VLA或相关路线。”沈咏剑说。
采写：南都N视频记者杨柳樊文扬蒋小天发自北京、海南博鳌

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

“北京范儿”短视频大赛科创力量单元启动已带动线上线下消费近54亿元｜聚焦2026中关村论坛

“百虾大战”烧热Token经济，腾讯卡位AI to B新战场

宇树科技将在上海开设具身智能体验馆亚洲首店！5月开业！

单日搜索7.7万次！Token成顶流，AI算力价格十天飙涨30%

小米冷清、智己没人、零跑排队：实探十家门店，谁在闷声发财？

小米冷清、智己没人、零跑排队：实探十家门店，谁在闷声发财？

全站最新

“北京范儿”短视频大赛科创力量单元启动已带动线上线下消费近54亿元｜聚焦2026中关村论坛

“百虾大战”烧热Token经济，腾讯卡位AI to B新战场

宇树科技将在上海开设具身智能体验馆亚洲首店！5月开业！

单日搜索7.7万次！Token成顶流，AI算力价格十天飙涨30%

热门推荐

阿里巴巴同日成立2家新数据科技公司

中环领先半导体增资至约53.9亿

罗马仕电芯供应商唯一子公司注销

河北定兴成咖啡加工地，全国现存咖啡相关企业超26.5万家

中国车企全球销量首超日本，现存汽车产销相关企业超175.6万家

人脸识别风险不止“没穿衣服”，现存人脸识别相关企业超4500家

广西广投新材料集团增资至约45.8亿增幅约119%

虞书欣肖像权纠纷案将二审

公益维权明码标价公司近期变更负责人

最爱发钱老板商业版图盘点

丝芭传媒25年仅2人参保

遭315曝光的耍吧经营异常

水井坊集团一年内再度变更董事长

国家电投旗下天津投资管理公司增资至58.6亿增幅约204%

上海迪士尼涉及多起服务合同纠纷