当前位置: 首页 » 资讯 » 新科技 » 正文

瞭望 | 具身智能冷思考

IP属地 中国·北京 新华社 时间:2025-11-18 12:17:15

  文 |《瞭望》新闻周刊记者 扈永顺

  具身智能是融合人工智能与机器人、“十五五”重点发展的未来产业。我国具身智能领域技术近年突破迅速、政策支持力度很大。国内涌现多个达到国际先进水平的通用大模型;以人形机器人为代表,整机技术实现突破,多模态感知、大脑-小脑模型等关键技术取得进展;资本市场看好其发展前景。

  仍要看到,当前具身智能在技术和落地上仍处于早期阶段,多数具身智能产品应用场景集中在科研、教育以及部分工业环境的简单任务。

  多位受访专家认为,随着政策支持和消费电子、汽车制造等场景落地加速,形成产业良性发展生态,具身智能有望加快商业化进程。国务院发展研究中心相关研究报告认为,中国具身智能产业市场规模有望在2030年达到4000亿元、在2035年突破万亿元。


北京人形具身天工机器人在进行工件分拣工作 受访者供图

  热度持续不减

  在上海浦东新区的一间试验室内,一款1.5米高、人形上身、轮式下身的机器人可以根据指令“下蹲”后抓取地面物品。上海视豆智能技术有限公司创始人宋建军介绍,他们的人形轮式机器人全身有22个关节模组,底盘全向小巧灵活,自主研发平衡算法,能够保持身体平衡。运动能力强,整体负载10公斤,适合导游、导览、教育、安防等产业,在无人商店、无人仓库中应用潜力大。

  人形轮式机器人是具身智能各类形态中的一种,其他还有仿生、双足人形机器人等产品,已在汽车制造、物流搬运、电力巡检等场景中落地应用。

  整体看,受益于本体核心零部件日益成熟、模型算法等关键技术取得突破以及市场资金持续输血,中国具身智能产业快速发展。

  ——产业链上游核心零部件“卡脖子”难题逐渐攻克,国产化率持续提升,产品性能接近国际领先水平。

  具体来看,上游本体制造环节优势突出,无框力矩电机、谐波减速器等国产化程度高,不仅具备规模化生产与价格优势,还向国外整机企业送样测试;薄弱环节加速突破,六维力传感器、行星滚珠丝杠、空心杯电机等曾由外资主导、国产化率低的领域,近2~3年国内产品性能持续提升。

  从供应链看,我国具备电机、传感器、控制器等齐全的供应链体系和规模化生产能力、对下游需求响应迅速,具备降低具身智能本体生产成本的潜力,有望形成性价比优势。

  觅途咨询·具身智能研究院执行院长王淼告诉记者,2025年,宇树科技等头部企业进入小批量测试生产阶段;2026年人形机器人市场将迎来量产元年,上游硬件市场将随之爆发。“基于当前增长趋势,预计2035年中国核心硬件市场将达千亿级规模。”

  ——底层架构中,具身智能从前期模块化的AI算法集成,逐渐转向大模型驱动的统一技术框架,加之多模态感知加持,具身智能更“智能”。

  今年4月北京举办的人形机器人半程马拉松比赛中,北京人形机器人创新中心有限公司(下称“北京人形”)旗下具身天工机器人获得冠军。具身天工机器人依靠通用具身智能平台“慧思开物”赋能,该平台由大脑、小脑构成,大脑具备自然交互、空间感知、意图理解、分层规划和错误反思等能力;小脑涵盖元技能库、泛化抓取、技能拆解和错误处理等功能。在“跑马”时,大脑先规划路径,再调用小脑技能库执行具体动作,并将执行反馈传递给大脑,形成任务闭环。

  北京人形大模型负责人鞠笑竹介绍,科研人员利用各类大模型的知识理解和表达能力,实现了自然语言交互、多模态信息处理与转换,逐步整合语、视、触、听等多种感官信息,大幅提升具身智能系统的环境适应性,并通过融合机器人运动经验,为下一步机器人自主识别工厂、家庭等环境,主动完成搬运、家务等工作打下基础。

  ——融资规模与频次“双高”,大量市场资金涌入。

  “最近已经与几位投资人谈过,相比其他机器人,我们产品还配备新型无线充电技术,投资人对此很感兴趣。”宋建军说,具身智能产业仍处于早期发展阶段,但在政策、未来应用场景等驱动下受到资本高度关注,他希望尽快完成天使轮融资,实现产品下线。

  今年以来,市场成交了多笔上亿元人民币的融资,头部企业获得大订单。6月,银河通用机器人有限公司宣布完成了新一轮11亿元人民币融资;深圳市优必选科技股份有限公司9月斩获全球单笔最大金额订单,截至11月仅Walker系列人形机器人就已获得超8亿元订单。

  赛迪研究院未来产业研究中心人工智能研究室主任钟新龙认为,具身智能仍处于实验室阶段向中试验证阶段过渡,较为成熟的商业化应用场景的解决方案目前还有待挖掘与完善。机器人、智能设备等产品在实际生产、服务等领域的落地案例大多属于可以干,但距离干得好仍有较大距离。此时,市场存在“重资本运作、轻技术研发”的现象,一些初创公司通过概念包装吸引投资,但核心技术储备不足,导致行业存在投资泡沫。

  对此,首正泽富创新投资(北京)有限公司股权投资部投资经理吕清维认为,现在的市场泡沫属于结构性的短期泡沫,是科技发展周期中常见的“短期错配”,表现为估值前置、收入滞后,目前项目集中在种子、天使、A轮阶段,商业化验证不足,估值与当期现金流不匹配;可复制订单少,不少项目仍停留在概念验证或样机演示阶段,还没形成稳定的“规模交付+回款”商业模式。

  “具身智能是个充满挑战又充满机遇的领域。企业聚焦核心技术突破、场景化落地、供应链优化及商业模式创新,如果能在两三年内,把订单、交付、回款、复购跑通,估值就能被基本面填平,消化泡沫。”吕清维说。


多台优必选 Walker S2 在极氪 5G 智慧工厂群体协同作业 受访者供图

  挑战重重

  从产业完善所需的技术链支撑看,具身智能最终要实现商用,还须解决在泛化性、软硬件结合、标准与规范等方面存在的难题。

  ——提升泛化能力。泛化能力是指大模型在学习已知任务后,将能力迁移到未知但相似任务中的特性。大模型泛化能力强弱是数据特性、训练策略等多维度因素共同作用的结果。

  首先是数据质量、数量与多样性。大模型训练所需真实数据获取难度大,而易获取的仿真数据与真实世界有偏差。

  对功能性操作、动作序列的学习等,主要在专门的数采训练场用人工实采获取数据,目前效率较低、成本较高。“以训练一个烹饪机器人为例,需要按照烹饪流程,例如食材的放置、预处理、灶具操作、烹饪、装盘、摆盘等进行任务分解,现实中每个环节均需采集大量数据。”北京人形具身数据负责人李广宇介绍。

  数据获取另一重要途径是通过仿真生成数据。通过物理引擎高效、低成本地生成点云数据集,用于描述物体或场景的几何与语义信息。但仿真数据与真实世界存在偏差,模型在实际场景中易出现性能缩水、决策失误。“仿真环境中的摩擦力、重力等物理参数通常是理想化设定,而真实世界情况复杂,比如杯子表面沾油导致摩擦力变化,模型用仿真数据训练后,真实场景中仍会抓握不稳。”中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员王鹏说。

  其次,在训练策略方面,强化学习作为主流方法,其核心是通过与环境交互生成样本,并基于奖励函数的反馈调整策略参数。

  传统强化学习框架存在双重依赖困境:一方面,策略优化高度依赖训练环境中奖励函数的精确设计,例如自动驾驶任务需将雨天路滑、行人横穿等复杂场景转化为数学约束;另一方面,这种设计本质上是对特定环境分布的拟合,当部署到新环境时,即使环境差异微小,如路面摩擦系数变化或光照条件偏移,策略也可能因奖励信号失配而失效。

  清华大学交叉信息研究院助理教授高阳以自动驾驶为例介绍,开发者需将无限可能的环境交互转化为可计算的奖励信号,这不仅需要嵌入车辆动力学等知识,还需通过逆强化学习从人类驾驶数据中反演奖励函数。此类方法易陷入维度灾难,在连续动作空间中,手动设计奖励函数需调节数百个超参数,且难以覆盖极端天气下的车辆失控等长尾场景,导致训练成本呈指数级增长。

  强化学习的核心逻辑是“试错学习”,这一过程往往需要海量的交互样本才能收敛到较优策略,具身智能的训练场景进一步放大了该问题,限制了大模型训练效率,需要创新训练方式。

  ——软硬件深度集成面临难题,阻碍大模型认知智能向物理指令的有效转化。在自动驾驶等实时性和可靠性要求高的场景,需要云端通信的高效率和本体侧芯片强推理能力,这对软硬件深度集成提出了更高要求。只有软硬件深度集成,大模型生成的抽象指令才能被硬件“读懂”,硬件的实时状态才能及时反馈给大模型进行指令调整,形成闭环。

  具身智能执行任务时需结合复杂动作控制算法,这要求硬件具备极高的精度。硬件精度不足,影响与软件的紧密耦合。“移动空间定位要达到厘米级,手眼协调的操作空间精度需达到毫米级,只有满足高精度标准,具身智能的动作控制算法才能与产品硬件形态实现稳定、精准的耦合。”中国信息通信研究院人工智能所安全与具身智能部副主任张蔚敏介绍。

  此外,动态环境数据的高维特性,传统算法难以处理。“挑战在于如何开发出高效、可靠的软件系统,软件不仅要能够高效地处理和解释由硬件传感器收集的数据,还要能够与硬件平台紧密集成。”李广宇认为。

  软硬件难以深度集成不仅会导致具身智能性能难以充分发挥,还将升高企业研发成本、使产业链难以高效协同。

  ——标准与合规挑战。由于具身智能具备认知智能,又与物理世界直接交互,面临系列挑战。

  首先,具身智能技术、评测等标准化工作难度大。例如在技术评测标准面,中国人工智能产业发展联盟已推出具身智能基准测试,旨在解决测试场景分散、任务碎片化且评价准则不统一等行业痛点,但在张蔚敏看来,具身智能基准测试标准体系建设数据规模仍有限,质量也不高,测试难以客观反映具身智能的实际能力。需要构建任务活动知识库,通过还原家庭、工业等真实任务场景,使基准测试更贴近应用需求。

  在安全监管方面,因机器人能与现实世界直接进行互动,误用会产生直接的物理后果,其安全问题涉及模型安全、本体安全和信息安全等,标准必须不断递进。“亟待建立相关监管标准和规范,明确机器人在各个应用场景中的边界和限制。”张蔚敏说。

  其次,法律与伦理规范建设需要深入研究。当具身智能产品与人类伦理发生冲突时,如何规范、合理地开发AI技术、使用AI产品,以及如何应对人机交互过程中可能出现的社会问题,当下必须重视。“应加快完善法律与伦理规范,以应对人机交互过程中可能出现的信息安全、个人隐私等伦理和社会问题。”中国科学院科技战略咨询研究院副院长、研究员鲁晓说。

  筑牢安全可控产业链

  面对竞争激烈的国际形势,中国正在持续强优势、补短板,以打造一条极具韧性的具身智能产业链。

  ——进一步巩固本体产业优势。

  首先,解决好部分产品量产一致性和可靠性难题。对一些关键环节卡点,如无框力矩电机、行星/谐波减速器等零部件方面,需加快攻关进度。

  以灵巧手为例,在手结构精巧度、类似皮肤的柔性感知方面仍有较大挑战。“需要发展能够模拟人类皮肤般触觉的,兼具高分辨率、高耐用性和低成本的柔性触觉传感器技术,提高机器人进行精细操作的能力。”张蔚敏建议。

  其次,尽快降低成本。减速器、伺服系统以及控制器是具身智能本体的三大核心组件,在机器人整体成本结构中占六到七成。

  “高功率密度、高响应速度、高精度的关节成本居高不下,是阻碍机器人量产的一个主要因素。”宋建军举例,通常机器人双臂需要14个关节模组,其中组合了电机、减速器、编码器、控制器等核心零部件,动作越精细,需要的关节模组越多,成本越高。

  “要打通技术突破、应用验证的双向循环,加快实现核心零部件量产,降低本体成本,加速大规模落地,进而以规模效应反哺技术迭代。”松延动力(北京)科技有限公司CFO韩深任建议,以产学研一体化的创新联合体,支持高性能多自由度硬件本体技术突破,加快实现量产。

  ——加大基础研究,提升底层框架自主性。

  首先,探索具身智能双系统架构,模仿人类思维模式,提高具身智能通用能力。“目前业界从世界模型、扩散策略、脑神经科学等角度开展了相关研究,但仍未完全解决这一难题。”鞠笑竹说。

  人类具备双重思维系统,直觉、本能反应属于快思考系统,理性、深度推演属于慢思考系统,双重思维系统模式为具身智能突破“脑力”瓶颈提供了启发。北京大学人工智能研究院研究员杨耀东认为,科学界应深入探索快思考与慢思考的计算原理,推动具身智能快思考系统在感知、模式识别、模仿学习等方面具备毫秒级响应能力,同时让慢思考系统在因果推理、符号规划、长期价值优化中具备可解释性和泛化能力,并建立可验证的理论框架与跨任务评测基准。

  杨耀东告诉记者,当前的挑战主要在于快、慢思考系统的信息耦合与优先级冲突、慢思考系统算力消耗与能效矛盾、复杂环境下快思考系统误判与慢思考系统不稳健的平衡,以及两者共同的安全性与价值对齐问题,需通过跨学科研究和产业生态建设逐步克服。

  其次,提升模型泛化水平。如针对传统强化学习面临的样本效率低和奖励函数设计复杂等难题,高阳研究组提出利用基础先验知识的强化学习框架,通过结合策略、价值和成功奖励等基础先验知识,让机器人不依赖稀缺昂贵的物理世界数据,也能完成做家务、做饭等复杂任务。

  “先利用互联网上的图像、视频数据,训练出包含物理常识的先验模型,再把这些常识融入强化学习算法。机器人不用从零学起,能带着常识在物理世界尝试,快速掌握技能。”高阳介绍,目前该技术已经在千寻智能(杭州)科技有限公司应用,后续核心工作是从互联网数据中提取更多精准常识,融入强化学习框架,提升模型通用性。

  再者,发挥新型举国体制优势,凝聚分散的科研资源转向更底层、更通用的系统平台建设,构建国产安全可控具身智能操作系统。

  宋建军等受访专家建议,国内系统开发商需兼容国产硬件,能够灵活适配国产芯片及各类传感器、执行器,打破国外硬件依赖;提供易用的开发工具链和标准化接口,吸引开发者共建,避免生态碎片化。

  ——加速行业标准制定,完善伦理治理,引领全球具身智能发展。

  在标准化层面,主管部门已积极行动,2024年工业和信息化部已建立了人工智能标准化技术委员会,内设具身智能工作组,从系统研发支撑、智能系统技术、系统集成和系统应用四方面统筹推进国内具身智能产业标准体系建设工作。

  构建完善的伦理治理体系,不仅是技术发展的内在要求,更是实现技术与社会和谐发展的必然选择。“我国的具身智能治理体系应当立足于以人为本的核心价值,坚持分级治理、制度创新与国际合作的基本思路,既保障技术发展的动力与空间,又确保社会秩序的稳定与公共利益的实现。”鲁晓说。■

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。