当前位置: 首页 » 资讯 » 新科技 » 正文

腾讯首席科学家张正友:具身智能已经走到多智能体互动的全新阶段

IP属地 中国·北京 编辑:朱天宇 腾讯研究院 时间:2026-01-30 04:05:23

2026 年 1 月 27 日,腾讯研究院主办的腾讯科技向善创新节 2026正式举办。腾讯首席科学家、Robotics X实验室主任、福田实验室主任张正友博士在现场进行了演讲。

以下为张正友博士的演讲全文:

各位嘉宾大家上午好!

春节快来了,元旦也刚过,所以首先祝大家新年快乐!今天很高兴能够又回到科技向善创新节,跟大家分享我对智能机器人的一些思考和研究进展。我分享的题目叫做《身智融无碍——具身智能的演进和探索》。

大概五六年前,我提出了“虚实集成世界”这个概念,也就是说,我们正迈入虚拟世界和真实世界紧密结合、很难分开的时代。原因是有四个核心技术——虚拟真实化、现实虚拟化、全息互联网(全息的信息在虚实集成世界里面很流畅地流动)、智能执行体(连接虚拟世界和真实世界,并完成参数配置与启动)。

我们先看一下虚实集成世界和AI有什么关系。我们熟知的ChatGPT、Gemini、Manus...这些都是数字世界的AI,因为没有和物理世界相关联,所以我们又称为它叫“离身智能”。而现在,AI正走进物理世界——物理AI通过直接处理传感器和执行器以及各种各样的数据,使得机器能够感知、理解物理世界,并且能够和物理世界交互,因为机器已经有身体了,所以我们又把物理AI叫做“具身智能”。

现在的概念有很多,但其实都是连在一起的。具身智能有各种各样的形态——可能以数字人的形态出现,还有可能以机器人形态出现。机器人其实也有各种各样的形态——包括人形、四足、无人机、汽车......这些都可以是机器人。

讲了物理AI,那我们现在回过头来去看看人与AI系统的交互方式,也可以看到明显的差别。

第一类AI是我们接触的搜索引擎,它的工作方式是这样子的——用户提了一个查询,然后系统就返回来几十个链接,但是到底哪一个链接对我们真的有用,还是要用户自己去区分;所以我们不断点击链接看看是不是有用,有可能(没用)要返回,可能需要翻好几页才能选出自己感兴趣的。这是相对来讲被动的AI系统,而且用户对周围的世界是一点都不了解的。

现在我们进入到第二代AI系统,就是所谓的生成式AI ——用户提一个问题,系统就直接一个回答了,我们不用去点链接、然后去找信息。回答可能是文本、图像、视频、音频。此进展主要是因为大语言模型对自然语言的理解能力有非常大的提升。但是这种系统还是一个很被动的系统,同样,用户对我们周围的世界还是没有理解的。

我们现在进入到第三代AI系统,我把它叫交互式AI,或者是主动式AI。这种主动式AI会持续观察用户和用户周围的世界,这种观察是多模态的——它能够理解我们所处的物理世界,并尝试推断用户的意图,从而主动采取行动,帮助用户完成任务。这样的AI系统,就叫Agent或者智能体。智能体可以独立完成任务,而人类就可以扮演评测或者监督任务完成质量的角色。

智能体有以下特征:第一,它能够感知环境,并构建世界模型;第二,它能够自主规划和决策;第三,它能够自主采取行动来完成特定的任务和目标,还能够适应环境,并且能够从经验中学习,还能够和其他智能体合作。

下面这张是我画的AI全景图。从整体的结构来看,现实世界有人类、机器人,他们之间也互相交互。智能体和虚拟环境也有交互,虚拟世界和真实世界之间也是同样保持联通,进行多模态交互。人类和虚实集成世界的交互,都会由 AI 促成,而且会被记住,它带给我们的是生活质量和工作效率的大幅提升。当然在这之前,我们还需要解决很多技术、效率、隐私、安全等各方面的挑战。

近年来,具身智能这个概念受到高度关注,也进入到我们平常人的生活了,其重要原因就是大模型的发展,尤其是ChatGPT这类大模型带来的突破性发展。很多人就会想,我把大模型塞进机器人是不是就能实现具身智能?当然这能够达到部分的智能,但是要达到真正的具身智能,还是有很多工作要去做。现实的情况就是——智能跟本体是割裂的,真正意义上的身智融合还不具备。所以,我们期待智能跟本体有机融合,这样的机器人在和环境的交互中才能涌现出真正的智能。

我把机器人的演进划分成三生三世:过去,是经历了自动化的时代,它已经取得了极大的成功,尤其是生产线上,在已知的环境里面能够完成一系列非常精准的操作,效率是很高的。但是它需要事先的编程,而且不能把环境改变。所以虽然它有很强的固定操作能力,我还是仍然把它当做0智能。

现在是大模型时代——机器人可能有20岁的大脑,但是只有5岁的身体,因为它不能随心所欲去完成想要的任务。真正的具身智能,我们希望达到的是能够自主去学习和处理问题,能够应对环境的变化和不确定的场景,能够自动调整规划,我们认为具身智能能够通往AGI或者通用智能机器人。

我们腾讯Robotics X从 2018 年初成立以来,经过了多年的引进——从最初的Slap,到现在的SLAP3(Sensing-Learning-Action: Planning, Perception, Perception-Action)。其中的这3个P是什么意思呢——规划、感知、感知行动。我现在简单用机器人推老人去晒太阳这个任务作为例子:

首先,左上角这个规划大模型,它相当于我们人的左脑,它能够把复杂任务分解成一系列可以执行的子任务(比方说推老人晒太阳,首先要把老人抱到轮椅上);

第二个感知模型,相当于我们右脑,它是去理解我们周围的3D世界(要把老人抱到轮椅上,首先要知道轮椅在什么地方);

第三个是感知行动联合大模型,它相当于我们人的小脑,它打通了从“看见”到“做到”的关键环节(比如推老人在过道里面行走的时候要避开行人和障碍物)。

有了SLAP3这样的模型,我们腾讯 Robotics X 联合了福田实验室,推出了TAIROS具身智能开放平台,我们以模块化的方式,提供大模型开发工具和数据服务来支持具身智能机器人行业不断发展。这个平台的核心功能非常明确,是为了机器人本体开发商和应用开发商补齐关键的软件能力。

去年7月底的世界人工智能大会WAIC,我现场与搭载了TAIROS平台能力的宇树机器人G1进行了互动,大家可以看一下这个视频:

它所有的回答都是自动的,不是预设的。刚才看到的是单个机器人的演示,最近我们又有一些新的工作进展,也就是我们还没有对外发布的多智能体交互框架,包括一个虚拟的智能体,叫管家;还有两个实体机器人,一个是宇树的机器人,叫小宇;还有一个智元机器人,叫小智。每个智能体都有认知和行动的能力。又因为是多个智能体,所以它们共享了一些状态和记忆。我们通过腾讯的QQ来进行通讯,让机器人互相协作完成一个复杂任务。最近,这个多智能体参与了我们给优秀员工和优秀实习生进行的颁奖活动。

机器人到最后一定会融入、服务我们人的生活。为此,我们研发了一个人居环境的原型机器人,它有四个轮子,但是需要的时候能够把脚踏板放下来、上楼梯。到了平地以后,它可以继续用轮子高效移动。它前面有摄像头可以看见人,手臂和手上面有触觉传感器,能够知道到底这个人如何抱,可以推着老人出去,能够折叠,也不影响环境。请看视频:

唐代的智通大师留给我们四句偈语:“三身元我体,四智本心明。身智融无碍,应物任随形。” 这描绘的,恰恰是我们对理想具身智能的追求。在过去,机器人和AI常常是割裂的,我们强行把缺乏世界认知的AI塞进机器躯壳,结果往往是笨拙和不自然。但技术与认知的进步正推动我们从“割裂的拼接”走向“有机的融合”,智能不再是塞进去的,而是在与环境的持续闭环交互中真实涌现出来的。它意味着具身智能需具备强大的泛化能力,也就是说“身”与“智”要能动态、协同地进化,无缝地适应多变的环境,实现身、智、环境的圆融统一。

非常幸运,我们正亲眼见证着“身智融无碍”的未来在展开。IDEAS to Reality。融合演进,未来已来!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。