机器之心报道
机器之心编辑部
当大模型几乎能回答所有问题,那 AI 的下一站将在何方?当「数字认知」的潜力被空前释放,我们又如何将其转化为「物理世界」的真实生产力?
随着行业的不断发展,答案正变得越来越清晰:行动,或是智能的终极体现。而实现这一跨越的载体,便是具身智能。
如今,技术已将其推至产业变革的商业化临界点。但我们仍必须回答三个关键问题:需要怎样的颠覆性创新,才能赋予具身智能真正的泛化行动能力?又如何跨越从「技术可行」到「商业成功」的鸿沟,找到其不可替代的价值锚点?这场由「行动」驱动的革命,又将会把我们带往何方?
或许这一切问题,我们都可以在这里找到答案。
9 月 11 日下午,机器之心联合张江具身智能机器人有限公司共同出品的 2025 Inclusion・外滩大会 「具身智能:从泛化到行动,重塑产业未来」见解论坛在上海隆重举办。在这场围绕具身智能展开的盛会上,多位来自学界和业界的代表分享了他们在具身智能行业发展的经验和看法。
主题演讲
孙富春:训练场为破解具身智能「数据瓶颈」提供了关键突破口
清华大学计算机科学与技术系教授、博士生导师;清华大学人工智能研究院智能机器人中心主任孙富春发表了主题为《具身智能训练场与产业落地》的演讲。
他认为,早期研究中的具身智能是指给机器一个物理身体,来实现与物理世界的交互,如今的具身智能实际上是一个沉浸式感知过程的构建。
为了构建沉浸式环境,业界早期尝试基于视觉点云来实现数字孪生,但生成的环境远远达不到沉浸式感知,于是开始构建物理数字系统,让物理学的各种视觉、触觉等感知过程融入其中。结果显示,鲁棒性和泛化能力大幅提升。而当下,数据问题是制约具身智能发展的核心挑战,训练场为破解这一「数据瓶颈」提供了关键突破口。
「现在全国各地都掀起了一股构建具身智能训练场的热潮。」孙富春说道。
从整体来看,训练场具有降本增效、安全模拟、标准统一、并行加速、软硬解耦、虚实一体等核心价值。但同时,也存在着分散化、重复化、低效化等「各自为战」现象,亟需业界共同努力,制定标准来推动行业协同、有序发展。
谈及具身智能未来发展,孙富春认为,具身智能是一个结合本体、数据知识和场景的具身智能体,以及学习和进化架构四大核心要素的综合体,彼此之间需要相互协同,既要依赖沉浸式训练场与多模态数据采集,又要结合大模型的泛化与推理,推动具身智能的产业落地应用,并通过不断地学习与进化,最终迈向真正智能。
江磊:训练场就是 AI 时代的新型「数据工厂」
国地共建人形机器人创新中心首席科学家江磊,带来了主题为《构建跨场景高效的「仿真 — 现实」数据飞轮》的演讲。
他提到,这一轮人形机器人技术的发展重构了一个新的研发范式:AI + 机器人,即开发完机器人后,直接做训练场收集数据,完成数据收集再去做具身智能或具身大模型,之后再推向各种应用智能体。
在这一新的范式下,训练场扮演着重要角色,「训练场就是 AI 时代的新型数据工厂。」
在江磊看来,当下具身智能领域主要有智能驾驶、机械臂、腿足式机器人以及芯片研发等四路玩家,技术路径远没有收敛。而无论哪种技术路径一定要用到大数据集,所以训练场的重要性与意义不可忽视,需要更多人参与进来,「它不仅是一个基础设施,更是关键技术。」
而国地共建人形机器人创新中心在做的事情就是聚焦数据采集与训练场建设,联合业界一起打造一个低代码、可开发、可发布的具身智能领域的 MCP,适用于所有机器人,助力具身智能行业快速发展。
许华哲:和全球开发者摸一条名为 Scaling Law 的「胡须」
星海图首席科学家;清华大学交叉信息研究院助理教授,博导,清华大学具身智能实验室负责人许华哲,带来了主题为《开启具身智能下一站》的演讲。
许华哲介绍,星海图新发布的全身智能 VLA 模型 G0,采用 100% 的开放真实世界数据,配合「慢思考 + 快执行」的协同,经过 VLA 预训练,以及少量样本的后训练,可实现端到端模型的泛化操作,在新场景中完成系列复杂任务。过程中如果遇到失误,机器人可以自动修正动作,不再是传统做法中通过控制实现百分之百精准度,而是基于智能能力进行自我修正。
当前,具身智能的公认路径主要围绕数据进行探索,星海图走的也是「模仿学习 + 高质量数据」路径,并将真实数据作为主要载体。整体来看,具身智能领域数据主要包括真实数据、仿真数据、以及互联网数据,在许华哲看来,真实数据虽然昂贵但质量好,仿真和互联网数据更便宜、更容易获取,可永远存在着真实到仿真、真实到互联网的 Gap。不过,即使是真实数据可能也存在 Real2real 的 Gap,这会极大影响最终训练出来的模型质量。
为此,星海图搭建 R1 Lite 数据采集平台,进行开放世界的数据采集,涵盖酒店、餐厅、厨房、办公室等 50 个场景,并对这些数据进行标注。如今星海图已将这一数据集开源,不久之后模型 G0 也将开源。
未来,星海图希望与业界一起构建具身智能生态,为全球开发者搭建一块开放的、夯实的、高效的场地,一同去摸一条名为具身智能 Scaling Law 的「胡须」,携手业界一起走向通用具身人工智能。
张直政:大规模机器人数据合成仿真 + Sim2Real,破解具身数据难题
银河通用机器人联合创始人、大模型负责人张直政,进行了主题为《仿真合成数据驱动具身大模型实现产业智能化》的分享。
当下,我们对具身智能的诉求不仅是行走、跳舞,最重要的是能够干活,为此要直面一个行业重点问题:训练数据从哪里来?
在张直政看来,目前行业已摸索出了一系列有效途径,比如采用真机遥操作,但费时费力,且随着硬件更新,数据复用性有限,并非通往具身智能的最佳路径。因为具身大模型要真正实现跨行业、跨任务泛化,可能需要上万亿条数据,全部采用真实数据不可行,也不可持续。相较之下,仿真合成数据优势明显,更可控、更可扩展。
银河通用从创立到现在已经摸索出一条非常高效的通往落地的技术路线,主要分为两阶段:第一阶段用大规模仿真合成数据进行预训练,可以理解为「义务教育」,为机器人提供通用知识;第二阶段采集少量真实世界数据,让机器人学习如何把大规模仿真合成学到的技能应用到对应场景中,以迎合不同场景、复杂任务的具体要求,相当于「职业教育」岗前培训,进一步强化它的专业知识和专业技能。
围绕这样的训练范式,银河通用构建了一个全栈团队和全栈能力,确保基座模型稳定性与硬件一致性。
金国强:人形机器人蕴藏着下一个万亿美元的产业变革机遇
NVIDIA 资深解决方案架构师金国强,带来了《NVIDIA Physical AI 平台加速具身智能研发与落地》的主题分享。
苏洋:好的灵巧手要能够「用得上、买得到、买得起、不怕用」
灵心巧手联合创始人兼首席 AI 架构师苏洋,带来了《通往灵巧手的灵巧泛化之路》的主题演讲。
作为一家初创公司,灵心巧手目前聚焦灵巧手和灵巧手相关的技术和产品研发,客户涵盖科研机构、人形机器人制造商,以及工业领域公司。
在苏洋看来,灵巧手的技术与手机应用类似,强调多技能泛化,使其能够在各种场景中得到广泛应用。而好的灵巧手关键在于能够「用得上、买得到、买得起、不怕用」,只有这些条件都达到才能实现灵巧手的泛化,「如果大家都觉得贵,那么泛化将无从谈起。」
而当前最贵的是数据,大家之所以都在做合成数据,就是因为真机数据太贵。但问题是,合成数据虽然非常有价值,可能够迁移到真机上的胜率很低,因为存在太多物理约束,比如做灵巧手的厂商很多,可彼此的标准、电机、结构、手在不同任务下的物理磨损等都不一样。
因此,要想大幅降低实验开发成本、降低合成数据使用难度,使其能够迁移泛化,应该加大机器人的广泛应用。
「这就好比当业界有 100 万个真实的人形机器人或轻巧手运行后,故事就变了。」苏洋说道,那时,每天上传的数据将超过 2025 年全球一整年采集的数据。
而未来,灵心巧手将继续通过高性价比的灵巧手技术,让具身智能产品进入家庭,推动行业的快速发展,也希望与更多的开发者、伙伴一起实现这一目标。
思辨:通往通用泛化的两条路
思辨环节,在机器之心联合创始人、主编李亚洲的主持下,上海人工智能实验室青年科学家、具身智能中心负责人庞江淼;星海图首席科学家;清华大学交叉信息研究院助理教授,博导,清华大学具身智能实验室负责人许华哲,围绕「通往通用泛化的两条路」进行了讨论。
当前具身智能的探索路线有哪些?
许华哲认为,具身智能的发展还处于早期阶段,技术路线尚未收敛,各路玩家都在沿着各自路线进行探索。当前比较火的是 VLA 这一路径,真实数据 + 大模型,包括语言大模型到多模态大模型,再到多模态具身大模型,一条完全端到端的 VLA 路径。另外还有通过做数据仿真到现实的迁移路径等。
但在他看来,具身智能发展的关键在于数据,用什么数据、如何用好这些数据,这些都是需要深度思考的。
庞江淼也认同这一点,他认为,数据是技术路线划分的关键维度,比如真机数据、仿真数据、视频数据等。而模型侧的路线要有好多种,一种是端到端,但有些人也会觉得分层是更好的方式,还涉及一些世界模型相关的路线。
而当下上海 AI Lab,目前在数据维度采用的路线是 Real2SIM2Real 的方式,模型侧更关注端到端方式。
人形一定是具身智能的最终形态吗?
庞江淼认为,当 AI 发展到一定程度的时候,本体形态是什么样并不重要,因为数据采集方式、模型训练方式对本体没有那么敏感。
从终局状态来看,人形机器人不一定是唯一载体,而当下技术还不成熟,正处于一个从专用逐渐走向通用的螺旋式发展过程。如果聚焦有限场景、有限技能,先把机器人做到局部通用的维度来看,协作臂或轮式双臂机器人都是非常好的载体。
而在许华哲看来,大家看法不同是因为视角不同。如果从科研视角来看,人们对具身智能做的事情充满了想象,比如人形机器人要上火星种树、盖房子,把火星改造得宜居,那这样的话,人形机器人就是一个理想的形态。
而对创业公司来说,这种设想某种意义上是「戴着镣铐跳舞」,因为资源有限,无法像特斯拉那样拥有长期支持和规划,需要在工厂和实际场景中逐步探索应用场景。如果人形机器人只能做一两项简单任务,那就无法支撑高成本的生产,难以盈利,只有当人形机器人能够执行多项任务时,它的成本效益才能够体现出来,未来商业模式也会更加成熟。
是否有必要做世界模型?
许华哲认为世界模型和人形机器人类似,都是建立在远大愿景上的科学预测,当下来看其研究意义重大,但距离在具体场景的实际应用,还需要很多时间打磨。
庞江淼也持相似看法,从学术角度来说,世界模型代表着人对未来的预测能力,能够赋能具身智能的早期阶段,但距离实际应用还有非常长的路要走。
具身智能距离正式进入人们日常生活还需要多长时间?
许华哲认为,这取决于具身智能在家庭中发挥的作用,比如扫地机器人已经进入家庭,如果还希望它能够做饭、打扫卫生间等,则还需要再久一点。整体来看,这是一个渐进式过程,真正意义上达到保姆级别或者管家级别,可能还需要 5 到 10 年时间。
庞江淼则认为,10 年是一个很长的时间,科技发展将会带来非常大的进步与变化。未来 2 到 3 年内,具身智能可能仍处于非常早期的阶段,技术路线没有完全收敛。另外,由于大家对机器人的预期往往偏高,尤其在精准度和执行能力上,比如叠衣服要叠好、人形机器人走路不能摔跤,在未来 4 到 5 年时间里,将是一个双方双向修正的过程,人类降低期待值,机器人进行更高标准的技术打磨和完善。
圆桌对话:我们的下一个 “超级助手”:需求、场景与落地
在圆桌对话环节,西门子 Xcelerator 中国区总经理(兼主持人) 秦成,开普勒人形机器人 CEO 胡德波,Robopoet 珞博智能创始人、首席执行官孙兆治,小苗朗程合伙人赵沛舟,蚂蚁灵波科技 CEO 朱兴,围绕《我们的下一个「超级助手」:需求、场景与落地》进行了讨论。
具身智能「超级助手」应该是什么样子的?
今年,在大模型落地应用的新叙事下,具身智能成为热门话题,而在一波又一波的讨论之余,也让大家对于具身智能领域的「超级助手」产生了各种各样的设想,它将是什么样的?对于这一点,各位嘉宾展开了他们的想象……
在秦成看来,在工业场景里,「超级助手」是能听懂自然语言、直接驱动机器行动的智能体。就像西门子 Industrial Copilot 智能体系统,它不是替代现有自动化,而是叠加一颗 AI 「大脑」,让工厂更灵活、更好用。与其说是工厂的「超级助手」更像是「工业现场指挥家」。
胡德波认为,「超级助手」可以是工具人,也可以是生活伙伴,帮助并解决人与人之间的情感交互。例如在家庭场景中解决大家不愿意做的家务问题,在工业场景替代传统协作工种。
孙兆治心中理想的「超级助手」就像电影《Her》中的萨曼莎(Samantha),可以与人类进行自然交互、平等沟通,同时又能主动帮助并预想人类需求,他认为未来的「超级助手」更注重自然交互与主动交互。
赵沛舟则认为,从投资角度的终局思维来看,「超级助手」是长远的梦想,具有巨大的市场潜力。虽然目前更多在工厂中使用,但未来也有可能拓展到采购、财务等岗位,甚至企业除老板外,所有职位都可能由机器人代替。
而在朱兴看来,「超级助手」首先要足够聪明,具备高度的泛化能力,提供比较好的交互体验和个性化服务,具备更好的自我学习能力;其次,它也要有足够安全,随着人形机器人逐步进入家庭和更多场所,安全和伦理问题需要更加关注,确保机器人以安全、可靠的方式发挥作用。
当前具身智能存在的困难与挑战有哪些,又该如何做?
虽然各位嘉宾关于「超级助手」的设想都很美好,但不得不承认,当下还处于具身智能发展的早期阶段,还有很多制约性的挑战存在。为此,各位嘉宾也分享了当下的困难与挑战,以及如何做的。
胡德波认为,当前人形机器人进入工业场景的挑战主要有以下几个方面:一是硬件本体的可靠性、精准度和一致性还不太成熟;二是由于具身智能模型和数据(发展)还未收敛,模型的泛化性和部署便捷性方面还存在很多问题。另外,在工业场景作业中,机器人在执行搬运和上下料等具体任务时,面临许多工程化问题,需要通过细化任务、结合端到端模型、强化学习和触觉感知来解决。总结来看,结合开普勒企业发展,整体策略是先垂直再通用、先落地再泛化,同时关注整个模型和数据的闭环。
在孙兆治看来,当前具身智能的技术尚未完全成熟,尤其是当它面临家庭和情感陪伴需求时,达不到预期目标。但可以先找到一些局部、专用场景来突破,比如「Fuzozo」芙崽作为情感陪伴交互,以可爱、互动性强为切入点,与用户之间形成俯视关系,从而可以被允许犯错,降低用户期待,迎合用户需求。「技术在不同阶段,从产品设计角度来说都有相应解法可以做出对用户有价值的产品。」
赵沛舟则强调,当前具身智能仍处于早期、解决单点问题状态,单点问题不解决,后面的泛化将没有任何现实价值。与 LLM 发展类似,具身智能也在进行从基础模型到 Agent 能力的突破上,同时泛化问题也在探索解决中。
朱兴认为,在未来规模化进入家庭的伟大目标下,当前具身智能在软件和硬件上仍处于非常早期阶段。软件上,模型的泛化性和数据是当前的主要挑战;硬件上,围绕人形机器人进入现实世界,如何看得更清楚、摸得更明白,还有很多工作要做。
秦成总结道,具身智能整体的技术链条很长,软件、硬件、算力、算法等方面的问题尚未完全解决。而结合工业场景来看,主要的挑战涉及数据治理、软硬件结合、行业 know-how 等。生产数据往往存储在不同的系统中,如何将数据整合并进行高质量治理,成为了工业领域落地的瓶颈。为此,我们需要拥抱产业链生态,大家一起共赢、共生。
对产业链上下游协同以及对合作伙伴有怎样的期待?
就像秦成所言,具身智能是一个涉及非常长技术链条的行业,需要彼此协作,共同推动行业发展。为此,在谈及应该构建一个怎样的产业生态时,各位嘉宾也分享了各自的期待。
胡德波认为,硬件是我国特别擅长且越来越成熟,但结合行业发展目前缺少基座模型。结合开普勒做机器人本体、解决方案的经验来看,如果有一个具有通识物理智能的基座模型,就可以结合开普勒的本体特点去采集数据,甚至在仿真环境中生成机器人仿真数据,继而对基座模型进行调优或继续后训练,那就有可能将原始基础模型 80%-90% 的准确率、可靠性提升到 99.9% 以上。在核心零部件领域,开普勒联合多家企业合作深耕,致力于打造 “硬件梦之队”,以提升人形机器人本体能力,推动生态发展。
孙兆治认为,珞博智能本身擅长做「技术到用户价值的转变」,且团队是一群深耕具身智能、大模型等方向的技术人员。所以即便公司很年轻,但也已经与很多知名企业进行合作,整个合作过程不单是做项目,更多是为了开辟新的品类,从而带来更大的价值。这也是他们选择合作伙伴的原则,不仅限于技术层面,还涉及芯片、模型、音视频交互技术、云服务等多个领域的融合,为的是共同去实现终局目标。
在朱兴看来,蚂蚁灵波科技主要聚焦在智能层面,重点发展动作基础模型、空间智能、末端灵巧控制等未来具身智能需要解决的重要问题,也希望能够与行业合作伙伴共同加速解决这些问题,特别是数据集标准化、数据共享,以及模型开源等。
赵沛舟认为,短期来看,生态融合并不显眼,比如他们投资的穹彻智能,目前在做具身智能在食品加工领域的一些落地应用,毛利虽低,但对精准度要求非常高,这依然不够「性感」。而从长期来看,需要更多的伙伴一起参与,从而推动整个生态向更广泛的应用场景发展。
结语
本场论坛是一场碰撞智慧、激活潜能的顶级思想盛宴,我们有幸汇聚了这么多专家学者共同探讨具身智能的技术变革,从多视角勾勒了具身智能走向泛化的发展蓝图。相信在各方的共同努力下,具身智能将为我们的生活和产业带来更多的惊喜和变革。