当前位置: 首页 » 资讯 » 新零售 » 正文

对话智源王仲远:大模型迈向物理 AGI 技术转折点,具身智能尚在类GPT-3前的探索期

IP属地 北京 编辑:陆辰风 蓝鲸财经 时间:2025-06-06 21:02:13

智源研究院院长王仲远

蓝鲸新闻6月6日讯(记者 武静静)2025年6月6日,第七届智源大会在北京召开,智源研究院正式发布了“悟界”系列大模型,聚焦多模态、脑科学、具身智能与微观生命分子建模四大核心方向。

创立于2018年的智源研究院,作为中国新型科研机构的探索样本,它不仅开创了国产大模型的技术路线,也激活了中国AI大模型创业生态的第一波热潮——它催生了国内最早一批专注于大模型的创业公司,也影响了以杨植麟、岂凡超、曾国洋等人为代表的新一代AI大模型创业者。他们大多曾参与“悟道1.0”与“2.0”的研发,在项目中完成从学生到研究者的转变,成为中国AI大模型版图中的重要力量。

今天的“悟界”,是继“悟道”之后智源迈出的又一步。不同于以往聚焦语言、图像等数字世界,“悟界”面向具身智能和世界建模,将探索延伸至真实世界中的感知、决策与交互。

此次,「蓝鲸科技」采访了智源研究院院长王仲远,围绕“悟界”背后的研究逻辑、技术布局与未来方向展开深入对话,了解智源对下一代通用人工智能“底座能力”的一次系统性构思与前瞻性思考。

大模型技术还远没有到发展的尽头,下一步是探索物理世界

“界”代表着对虚实世界边界的突破,代表着对物理世界的赋能,以及在物理 AGI 方向上的迈进,王仲远说道。

据介绍,此次发布的“悟界”系列涵盖原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2,几乎覆盖了当下AI与人类核心认知结构、现实物理世界交互及生命本质建模的前沿方向,也是中国大模型再一次面向通用人工智能(AGI)一次探索和实践。

我们了解到,此次智源推出的“悟界”系列模型,首次系统性地覆盖多模态、脑科学、具身智能与微观生命分子建模,展现出构建“世界模型”的路径图,也体现了中国AI方面系统化创新能力。

王仲远告诉「蓝鲸科技」,“百模大战”竞争的背后,更多聚焦在大语言模型层面,几乎都仍局限在数字世界的语义理解与生成范畴。“然而,大语言模型的发展正面临增长瓶颈。一方面,训练依赖的互联网数据趋于饱和,模型性能提升趋缓;另一方面,多模态融合仍存在‘此消彼长’的问题——引入图像、视频等模态后,反而可能削弱原有语言能力,模型整体表现不升反降。”

这正是“悟界”系列试图解决的问题,王仲远表示,要让AI真正从“只能聊天”走向“能理解、能行动”的阶段,关键在于让它真正进入现实世界。为此,智源不再只依靠互联网文本数据,而是引入更多来自真实世界的信息,比如图像、声音、三维空间结构,甚至是人脑的活动信号。

智源正在探索一种叫“原生多模态”的新方法——简单来说,就是从模型训练的第一步开始,就同时使用多种类型的数据,让AI从一开始就具备综合理解各种信息的能力。

Emu3 原生多模态世界模型就是这种做法的代表,它可以把文字、图片、视频转化为同一种“语言”来处理,这样就能更顺畅地理解和生成不同形式的内容,让AI变得更聪明、更灵活。此外,智源推出的见微Brainμ模型,就能把脑信号转化为模型可以处理的“语言”,并与图像和文本进行跨模态多向映射。

更进一步,大模型未来需要具备对空间位置和时间变化的感知能力,比如判断一个杯子是否快要从桌边掉下去。这类时空理解对于未来AI机器人在现实中完成任务至关重要。王仲远认为,这种面向物理世界的原生多模态模型,将是实现真正“物理 AGI”的路径之一。

具身智能仍处于探索期,类似大语言模型的 GPT-3 之前阶段

随着AI正从数字世界走入真实空间,具身智能正在成为当下另一个热议的话题和技术攻坚领域,也在陆续诞生各种创业公司。

王仲远向「蓝鲸科技」谈到:“具身智能目前仍处于技术探索的早期阶段,类似于大模型在 GPT-3 之前的摸索期。”

他提到,当下具身智能面临多重挑战。一方面,核心技术路径尚未明确,如仿真数据利用和“大小脑”融合架构等仍在探索中,技术复杂度远超智能驾驶。另一方面,数据采集困难是具身智能发展的重要瓶颈。真机数据获取受限于现有模型能力,形成“循环悖论”,加之真实世界多模态数据虽然丰富,却难以高效利用。

此外,软硬件协同复杂,特别是跨本体“大小脑”融合尚未成熟,导致产业落地周期长,缺乏明确的规模化应用。“未来 5-10年,大小脑融合的模型可能会成熟,但不是今天。”王仲远说。

智源发布的具身大脑RoboBrain 2.0是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越具身智能领域主流大模型。

RoboBrain2.0官网:https://superrobobrain.github.io

王仲远透露,“在数据训练的技术路径上,智源借鉴了大语言模型的发展思路,更多依靠的是互联网数据帮助机器人学习智能...再通过强化学习和少量真实世界的数据不断训练它的能力,不断突破具身智能的发展上限。”

他借用了一个视频比喻:“就像一个小朋友先通过看短视频学会怎么拆糖果,再通过实际操作(强化学习)逐步掌握这项技能。”

此外,为了让大模型更好的用起来,此次智源发布了跨本体具身大小脑协作框架RoboOS 2.0,这是全球首个基于具身智能SaaS平台,可以支持 MCP 的跨本体具身大小脑协作框架,目标是构建具身智能领域的“应用商店”生态。

同时,RoboOS 2.0也是全球首个支持MCP的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。

王仲远详细介绍称,“RoboOS 2.0实现了小脑技能的免适配注册机制,显著降低开发门槛。典型场景下,相关代码量仅为传统手动注册方式的1/10。这使得开发者能够更容易地贡献和分享小脑技能。”

目前,RoboOS 2.0与RoboBrain 2.0已全面开源,包括框架代码、模型权重、数据集与评测基准。且智源研究院已与全球20多家具身智能企业建立战略合作关系。

对于具身智能接下来的发展趋势,王仲远谈到,具身智能的大规模商用落地尚需时日。未来 3 年内,突破性的规模化应用最可能首先出现在特定、相对封闭的场景,尤其有大量重复、枯燥甚至危险的任务,非常适合具身智能第一波切入。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新

热门推荐