当前位置: 首页 » 资讯 » 新科技 » 正文

商汤董事长徐立:世界模型,推动AI迈入真正与物理世界交互时代

IP属地 中国·北京 编辑:沈如风 凤凰WEEKLY财经 时间:2025-07-28 16:13:05

在人工智能快速演进的当下,具身智能作为感知、行动和交互能力的融合,正逐渐成为技术创新的新方向。

商汤科技正加大在这一领域的布局。近日,在WAIC 2025大模型论坛上,商汤正式发布其“悟能”具身智能平台,标志着商汤在推动具身智能发展方面的又一进展。

据悉,“悟能”以商汤具身世界模型为核心引擎,依托商汤大装置提供端侧和云侧算力支持,能够为机器人、智能设备提供感知、视觉导航及多模态交互能力;“悟能”还可赋能机器人等各种终端硬件,实现对世界万物的感知理解能力,并支持嵌入到端侧芯片,具备较强的场景适配性。此外,“悟能”还能生成多视角视频,确保较为良好的时间一致性和空间一致性,让机器能够理解、生成、编辑真实世界,在空间层面实现世界交互。

更关键的是,商汤具身世界模型能构建面向人、物、场的4D真实世界,用户仅需输入简单的提示词,比如“在厨房区域的架子上找东西”,“进入娱乐室、向右转,然后打开通往院子的门”等,具身世界模型就能自主进行位姿、动作骨架和指令的生成。


商汤科技董事长兼CEO徐立在论坛上表示,“商汤‘开悟’世界模型,由日日新V6.5赋能,而‘开悟’世界模型也是视频生成模型,但它考虑了时间、空间的一致性。”

徐立进一步解释称,比如自动驾驶需采集大量复杂视角,如七路摄像头typo数据,开悟模型仅凭自然语言描述,即可生成逼真的七路摄像头视角模拟数据。

“现在任何人都可以通过自然语言描述场景,生成符合3D物理规则、特定视角的视频片段。我们要求的不是视频质量达到电影级别,而是符合物理规则、物理定律,并且能够真正意义上切进用户的使用场景,让你在真实世界开上极品飞车。”徐立表示,而这部分能力,完全可以扩展到机器人的学习和应用中。

值得一提的是,商汤在具身智能领域的探索并非首次。

今年4月,商汤在其2025技术交流日上已展示了基于SenseCore 2.0大装置训练的具身智能成果,并与傅利叶、松应科技等公司达成战略合作。

展览期间,商汤科技还发布了日日新V6.5多模态大模型。据悉,日日新6.5独创了图文交错思维链,跨模态推理精度有较大提升。

具体来看,传统的多模态推理模型,在推理之前会将图像转变成文本解读,后续的推理过程就变成了纯文本。而在图文交错思维链当中,图像会以本体的形式参与到整个推理过程。

在展览现场,商汤还展示了一款搭载日日新V6.5多模态大模型的人形机器人。该机器人能够进行自然流畅的PPT讲解,并以生动有趣的互动对话吸引了大量参观者注意。

有分析指出,通过这一系列的创新和技术积累,商汤正在逐步消除机器人和智能设备的“冷感”,让它们能够更好地融入人的日常生活,并在更复杂的环境中实现自主互动。这也是商汤AI技术逐步成为提升生产力的重要工具的体现。

而随着多模态技术的不断突破,具身智能也将不断赋能机器人和智能设备,在各行各业中发挥越来越重要的作用。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。