2025年6月,国内具身智能领域宇树科技、非夕科技、银河通用三起亿级、十亿级重磅融资几乎同时官宣,具身智能热潮继续升温。
那么被视为全球科技竞争高地的具身智能产业,现在究竟发展如何,又有哪些瓶颈?
6月24日,2025阿里云中企出海峰会·深圳站,在广东省人工智能与机器人产业联盟指导下,阿里云组织了一场以具身智能为主题的研讨会。
在这场研讨会上,十四位具身智能产业不同领域的关键从业者,就具身智能的数据、架构和商业路径三大话题进行了一场激烈的研讨,并在研讨中给出了自己的答案。
01 数据难题:线下采集 or 仿真合成
据IDC此前预测数据显示,2024年全球将生成159.2ZB数据,2028年将增加一倍以上,达到384.6ZB,复合增长率为24.4%。
然而,数据量不足却依旧是具身智能领域一大难题。
据中国信通院联合北京人形机器人创新中心发布的《具身智能发展报告(2024年)》指出,缺乏数据已经成为具身智能能力突破的重要壁垒。
这时,通过机器人在真实环境中采集数据和在虚拟环境合成仿真数据就成了当下破解具身智能数据难题的两条主流路径。
京津冀智能制造装备产业联盟秘书长张欢喜早在2006年就进入了工业机器人领域,他在研讨会中指出:
“机器人产业早在诸如工业机器人和工业自动化解决方案发展过程中就遇到了数据问题,当时工业机器人对数据要求不算高,通过并联识别等相关技术对机器人进行训练,就能有不错的成效。但随着具身智能对机器人能力要求越来越高,仅仅依靠这类传统模式已经无法适用。”
要想大幅提升具身智能机器人的能力,数据驱动、模型驱动就成了必然的发展方向。
正因如此,越来越多具身智能团队开始在全国各地建数据采集场,例如智元机器人在上海投建了具身智能机器人的数据采集场,帕西尼感知科技也在天津投建了数据采集场。
要让具身智能在真实物理世界中具备交互能力,在真实世界中采集高质量数据固然重要,但由此产生的数据不仅成本高昂,而且数据量往往难以形成规模,通过仿真数据训练具身智能机器人,就成了另一条主流路径。
跨维智能创始人兼CEO贾奎是这条技术路径的绝对拥趸。贾奎在研讨会上指出,“与大语言模型要学习的智能不同,具身智能本质上是世界物理规律的智能,从广义空间来看,更像是一个牛顿体系的智能。”
要想实现这样的具身智能,贾奎认为,“唯一的方式就是建立一个引擎世界,将物理世界、物理规律,以及机器人在这个世界中与物体、环境的交互方式以仿真形式建立起来,这样的引擎才是具身智能机器人最佳的训练场,这与地球在过去几十亿年演化出了不同的生物一样。”
当然,大语言模型仍在具身智能产业中发挥着作用。
成立于2024年的流昇科技是一家致力于提高人工智能通用性的企业,流昇科技CEO林泽腾在研讨会上分享称,“在观察到中国企业出海,尤其是中国智能硬件产品出海时,普遍会遇到语言难题后,如何让中国企业的智能硬件产品卖到不同的国家和地区,甚至让受教育程度不高的当地人民用上中国产品,就成了我们创业之初思考的问题。”
为此,流昇科技团队找来了在全球广为流传的经典文献,这些经典文献在传播到不同国家和地区时会被翻译为当地语言,这样的语言体系有时甚至都不是以文字形式呈现,而是以音频形式呈现,流昇科技不断将这些文献收集起来。
据林泽腾透露,他们当时一共在全球收集了4000多种语言的全球经典文献,通过数据清洗,将能够用来做训练的四分之一的数据保留,并将这些数据与300多种国际通用语言进行对齐、清洗掉不合适的内容、找人工团队将数据进行补全,最终这些数据被用来训练大语言模型。
据悉,流昇科技由此训练出的一款名为“萌萌心语”的产品可以识别4017种语言,支持1107种语言的同时翻译转换,可用于诸如割草机器人、扫地机器人等具身智能机器人产品出海。
阿里云在过往具身智能爆火的这一年里,也已经服务了不少具身智能企业,尤其在数据管线服务上做了大量工作。
阿里云智能集团公共云事业部华南大区高级解决方案架构师武润鹏就指出:
“具身智能的数据管线可以分为数据采集、数据清洗和预处理、数据增广、数据质量控制、数据标注、数据存储与检索、数据权限划分等环节,阿里云在这些相对共性的需求或者说面临的挑战上面基于云上丰富的产品线已经构建了相对成熟的解决方案。
这些方案覆盖了从存储到异构算力,从模型全生命周期的管控到数据权限的划分,由此让具身智能企业能够从繁琐的infra工作中抽身,把宝贵的时间精力放到最核心的业务研发上,来快速迭代自己的产品。”
02 具身架构:大小脑 or 端到端
2023年7月28日,谷歌DeepMind推出了一款新的机器人模型Robotics Transformer 2,也就是RT-2,这一视觉-语言-动作大模型表现出了不错的泛化性,也成了在具身智能领域关注度颇高的端到端具身大模型。
端到端是当下具身智能领域一条主流的技术路径,这条技术路径的一大特性是,将视觉、语言、动作模型融合到了一个模型中,通过这一个特定模型,驱动具身智能机器人执行任务。
区别于端到端具身大模型的另一条主流技术路径是,大小脑协作。
深圳市人工智能与机器人研究院研究员王凡更愿意将大小脑协作称作分块式路径,王凡将这一类智能体的模式总结为,将小脑作为工具,用大脑调用小脑的模式。
在脑科学中有一个概念叫作代偿机制,具体是指大脑在受到损伤或功能障碍时,可以通过重新分配或激活其他神经通路和资源来维持或恢复被损伤的功能的现象。
王凡指出,“这是现在大小脑协作的具身智能体系中所不具备的,而如何将代偿机制与分块模式进行结合,是我们研究院现在重点关注的一个领域,也是我们认为具身智能未来很有潜力的一种模式。”
对于端到端模型的局限性,林泽腾同样深有体会。
据林泽腾透露,流昇科技团队最近通过在轮式底盘上搭载两个机械臂,在20平方米左右的家居环境中整理各种物体。
通过VLA模型,机械臂可以实现叠衣服的功能。不过,流昇科技团队发现,如果再在其中放入一个新物体,机械臂就无法保证完成任务,“当具身智能需要面对的世界越来越复杂时,是否可以很好地学习新知识,这是VLA模型现在面临的最大瓶颈。”
不仅仅是端到端的VLA模型存在诸多瓶颈,实际上,目前具身智能仍处于发展早期阶段,市场快速变化,技术路线还未收敛,各类模型迭代速度也很快。
在这场速度的比拼过程中,拥有一个稳定、先进的基础设施来快速保障业务发展显得至关重要。
作为国内最大的云和AI基础设施供应商,阿里云在这些方面有着颇多沉淀。
阿里云智能集团资深产品解决方案总监、大数据和人工智能平台解决方案负责人魏博文在论坛上指出,“阿里云底层平台可以处理非结构化数据,并拥有数据清洗、数据拆分、数据标注等能力,以实现更高效的多模态数据处理分析,也方便了具身智能模型的训练和推理。”
实际上,相较于智能辅助驾驶,具身智能领域的数据体量并不庞大,阿里云大数据和人工智能平台在过去几年里已经通过千卡、万卡规模算力集群承载了智能辅助驾驶的端到端大模型数据产线和模型训练,陪伴了中国智能汽车产业的发展,这种能力可以很好地延伸到具身智能产业上。
就模型而言,阿里云智能集团飞天实验室科学家胡露露指出:
“当前大模型本质上是基于对信息的的压缩和表达,推理模型的诞生,显著地增强了大模型在代码、数学等问题上的能力,而再将Agent能力叠加到模型上后,会显著地增强模型处理长链路复杂任务的能力。
阿里拥有全球领先的通义系列大模型,并逐渐将文本模型、语音模型,以及多模态模型逐渐开源出来,社区也有大量的基于通义大模型的具身模型诞生。这些模型将被越来越多地应用到具身智能领域。”
此外,作为一个新兴赛道,如何快速跑通工作流也是具身智能企业抢占市场先机的一个重点。
阿里云无影团队在2024年就一直关注具身智能行业,并在今年年初对外发布了基于RTX 5880 ADA显卡的专业工作站。
据阿里云智能集团无影事业部产品解决方案总监郑芳友介绍称:
“通过无影专业工作站,具身智能团队可以快速在云端构建可视化开发环境,在这一开发环境下完成数据标注、训练参数调整,并可以与云上训练集群高效互动,极大地提升了工作效率。
相较于传统开发模式,以往需要两三天的开发工作,基于无影专业工作站的全线上开发流程,现在只需要2-3小时就能实现。”
基于全球领先的通义SOTA开源模型能力、智算基础设施的先进技术和规模优势以及历经智能辅助驾驶磨练的平台和工程能力,阿里云正在帮助具身智能企业用成本换速度、用品质提速度、用经验赢速度。
03 具身智能商业化落脚点
经过具身智能团队在过去两年里的纷至沓来、百家争鸣,2025年被视为具身智能产业元年。
这一年里,越来越多具身智能机器人开始进入各大汽车工厂实训、进入商超酒旅场景演练,甚至进入到运动会的赛场,开始跑马拉松、打格斗赛,进行各种实操技能的比拼。
成立于2022年的逐际动力就是一家高度重视商业化的公司。
据逐际动力联合创始人庞博透露,“我们认为现在人形机器人已经到了用量产向投资人、向自己交卷的时候,所以我们现在是两条腿走路,一方面凭借自己的技术优势面向实际应用落地场景持续探索,另一方面是在真正商用落地之前,以某种过渡产品形态先在特定场景进行量产落地。”
庞博认为,“商业价值并不是说我们主观觉得机器人用在哪里好,真正的商业价值是哪个行业中的哪个问题用机器人解决是性价比最高的解决方案。”
这其中,机器人行业的一个关键转变是,数据驱动的模型正在取代传统公式的模式来控制机器人运动,这种模式正在让机器人走得更稳。
正因如此,逐际动力在2024年率先推出了双轮足式机器人,用最简单的八个关节实现了全地形移动能力。
成立于2024年3月的数字华夏同样有着自己的商业化打算。
据数字华夏联合创始人陈军民透露:
“数字华夏定位有温度的AI人形交互机器人,聚焦人形交互机器人的设计、研发与商业落地。通过多模态智能交互技术,让机器人去服务人,让机器人的应用场景落地千行百业。
在服务人、与人类做朋友的过程中,机器人可以获得我们人类对这个事情是如何看待,如何思考,如何解读,如何具体实现等,拿到海量的人类实际工作与生活真实数据,然后不断的通过AI来模拟与训练,为未来通向AGI之路提供坚实的数据驱动。
目前面向教培、文旅、金融、制造等场景,数字华夏主推的是双足+轮式双形态机器人星行侠P01。”
据陈军民介绍称,基于这一形态的机器人解决了三大问题:
第一,安全问题,通过轮式解决了双足运动不稳定的问题,解决了双足机器人批量化商业落地安全问题;
第二,续航问题,目前市面上双足人形机器人普遍续航在2-3小时,通过轮式底盘,星行侠P01相当于又增加了8小时续航;
第三,成本问题,数字华夏这款双形态机器人比市面上的双足人形机器人成本要更低。
这是数字华夏在推动具身智能机器人量产落地过程中找到的商业路径。
相较于逐际动力、数字华夏,成立于2025年3月的星灿智能的商业化路径又有所不同,星灿智能CEO李战斌是拥有八年自动驾驶行业资深从业者,在创立星灿智能后,他的目标转向了研发家庭服务机器人。
之所以会选择这一场景,是因为李战斌认为,“随着国内老龄化日益加深,家庭养老和康养会是具身智能机器人两个关键应用场景。”
过往的自动驾驶从业经验让李战斌认识到自动驾驶发展到后期引入了先验知识,从数据驱动转向了“双轮驱动”。
到进入具身智能机器人领域后,他们也在将家庭场景的先验知识落地到VLA模型的“L”中,以此推动具身智能机器人在家庭养老和康养场景快速落地。
然而,在以数据驱动的具身智能机器人落地过程中,核心是计算和推理,阿里云智能集团公共云事业部华南大区资深解决方案架构师姚蛟认为,“这应该是云边端协同的计算推理。”
在家庭服务场景中,核心需要通过端侧算力进行推理,而在康养、酒店等集中式场景中,工作节拍比家庭场景更低、准确度的要求却更高、需要的模型尺寸也要更大,阿里云为此特别设计了边缘推理设备,能够同时支持上百台机器人的推理计算。
针对那些对准确度要求极高的场景,就需要通过云端的大算力和大模型来解决此类场景的推理难题。
姚蛟指出,“具身智能机器人其实是互联网世界和物理世界之间的一个桥梁,过往这两个世界比较割裂,现在有了具身智能,就可以弥合二者之间的缝隙,将两个世界完美结合起来。”
而这,也正是具身智能的意义所在。
04 开启具身智能的下一个十年
作为一个庞大的未来产业,具身智能如今已经成为全球科技竞争高地,我国也在今年首次将具身智能写入了《政府工作报告》,全国各地对于具身智能这一未来产业的投资热度也空前高涨。
广东省更是在2025年6月6日正式成立了广东省人工智能与机器人产业联盟,这是一个由23位院士专家,331家人工智能、机器人创新主体的重要联盟,旨在推动产业链上下游协同、产学研深度融合,形成高效联动的创新生态。
实际上,作为国内具身智能重镇,深圳一直以来都在真金白银投资具身智能产业发展,深圳市南山区已经形成了机器人谷,龙岗区则准备三年拿出100亿订单陪伴机器人产业穿越周期……
作为国内云计算与AI基础设施核心供应商,阿里云如今也在积极布局具身智能赛道。阿里云智能集团副总裁、市场营销部负责人刘湘雯在论坛上指出,“阿里巴巴不但投资了逐际动力、星动纪元等具身智能团队,还在通过先进的基础设施服务具身智能团队。”
利好的政策、雄厚的资金、集聚的产业带,以及完备的云计算和AI基础设施,正在为中国具身智能开启一个快速进化的十年。
作为这场具身智能研讨会的主持人,至顶科技CEO兼总编辑高飞也特别指出:
“大语言模型的奇迹已然发生,具身智能的‘GPT时刻’何时到来,正成为产业关注的下一个焦点。
不过,这一历史性时刻的发生地,并不一定在硅谷。
因为具身智能既要有‘会思考的大脑’,也要有‘能行动的身体’,而中国,正是全球唯一同时拥有这两者制造能力与完整产业链的沃土。”
更难得的是,国内家政、养老、商业、工业等千行百业的真实需求,也正在为技术落地注入源源不断的现实动力。