当前位置: 首页 » 资讯 » 新科技 » 正文

动捕设备能成为具身大模型的下一场蓝海吗?

IP属地 中国·北京 编辑:沈瑾瑜 机器人大讲堂 时间:2025-08-22 00:12:32

具身智能的产业发展可追溯至20 世纪 50 年代,图灵在其论文中提出人工智能可能的发展方向,为具身智能概念奠定基础。1980-1990 年代,罗德尼・布鲁克斯和罗尔夫・普费弗等人的研究提供了重要理论支撑,进入早期探索与理论发展阶段。2000 年代初,具身智能研究融合机构学、机器学习、机器人学等跨学科方法和技术,形成相对完整的学科分支,进入跨学科融合与技术突破阶段。2010 年代中期,深度学习技术快速发展为其注入新动力。2020 年以来,具身智能受到广泛关注,众多科技巨头及高等学府纷纷投入研究,具身智能正逐步走向产业应用,推动专用机器人向通用机器人发展。

大模型通常指拥有巨大参数量的机器学习模型,尤其在NLP、计算机视觉及多模态领域应用广泛。其发展追溯至 20 世纪 AI 研究初期,当时聚焦逻辑推理和专家系统,但受限于硬编码知识和规则。随着机器学习、深度学习技术出现及硬件能力提升,大规模数据集和复杂神经网络模型训练成为可能,催生大模型时代。2017 年,谷歌 Transformer 模型引入自注意力机制,极大提升序列建模能力。此后,预训练语言模型理念成为主流。2022 年底,ChatGPT 的出现推动 NLP 领域发展。2023 年 3 月,OpenAI 的多模态大模型 GPT-4 新增图像功能,标志着大模型从单一模态向多模态转变。

具身大模型由非具身大模型发展而来。非具身大模型最初以单模态语言模型为主,如早期GPT 系列,后扩展到多模态输入输出。具身大模型以谷歌 RT 系列为代表,2022 年 RT-1 首次结合视觉、语言和机器人动作,2023 年 RT-2 进一步提升多模态融合和泛化能力。特斯拉 FSD v12 版本采用端到端大模型架构。2024 年,RFM-1 等基础模型推动具身大模型向更通用方向发展,未来将朝着通用具身智能迈进。

▍GPT、强化学习与多模态融合的底层逻辑

Transformer 模型是大型语言模型的基石,由编码器和解码器组成,包含自注意力子层和线性前馈神经网络子层。自注意力子层生成输入序列位置的独特表示,线性前馈网络生成信息丰富的表示,编码器和解码器包含位置编码层以捕捉位置信息。模型训练依赖反向传播和优化算法,采用正则化和集成学习策略提高速度和泛化能力,解决了 RNN 在长序列处理中的梯度消失和模型退化问题,并行计算能力强,在机器翻译、文本分类和语音识别等任务中表现优秀。

GPT基于Transformer 架构,是预训练范式,通过大数据预训练学习通用特征,应用于计算机视觉、自然语言处理等领域。预训练阶段利用自注意力机制学习文本规律,微调阶段通过有监督学习适应具体任务需求。预训练有利于提升性能、加速训练和提高泛化能力。

强化学习是智能体通过与环境交互学习最优行为策略的机器学习方法,核心概念包括智能体、环境、状态、行动、奖励、策略和价值函数。智能体根据当前状态选择行动,环境给出反馈,智能体据此更新策略和价值函数,目标是学习最优策略。其算法可按是否需要环境模型、价值函数等分类,常见算法有Q-learning、SARSA 等。

多模态融合模型技术核心是整合不同模态信息,提升对复杂场景的理解和决策能力,涉及融合层次、策略、跨模态对齐与交互、表示学习及训练策略等方面。融合层次分为早期、中期和晚期融合;融合策略有简单拼接、加权融合和注意力机制等;跨模态对齐与交互是关键;训练策略包括联合训练、分阶段训练和对抗训练等。

▍分层与端到端 哪种才是人形机器人最优解?

Figure AI分层具身大模型

分层具身大模型将任务分解为规划、决策和控制三个层次,每一层由专门模型实现特定功能。规划层负责任务理解与分解等;决策层生成动作序列等;控制层执行运动控制等。各层通过指令流和反馈流协作,具备独立反馈闭环,强调模块化、可解释性和独立优化能力。

Figure AI 在机器人上部署的分层具身大模型,第一层为 OpenAI model,整合感知信息;第二层为 Neural Network Policies,实现环境感知到动作的规划;第三层为 Whole Body Controller,控制机器人完成具体动作。

谷歌RT-2 端到端具身大模型

端到端大模型是先进的深度学习架构,直接将输入数据映射到输出结果,省略复杂中间处理步骤。以RT-2 为例,在大规模数据上预训练,再在特定任务上微调,能高效处理多模态信息,实现从感知到决策的无缝衔接。RT-2 的核心目标是将视觉输入和语言指令映射到机器人动作,使用大规模预训练的 VLM 生成动作 token 序列,直接输出动作 token,训练中对齐动作数据为动作 token,限制输出词汇表确保与机器人执行器兼容。

端到端具身模型与分层模型各有优劣。端到端模型集成感知、推理等功能,效率和响应速度高,泛化能力强,但需海量训练数据,可解释性差,训练成本高;分层模型模块化、可维护性和灵活性好,适合复杂任务,但系统复杂性和性能开销较高。短期内分层模型更适用,长期看端到端模型有望成为主流。

▍数据是具身大模型的核心壁垒

一、真实数据与合成数据之争

具身机器人数据规模较小,通常包含多模态信息,能帮助机器人学习相关能力,但面临数据稀缺、采集成本高、标注复杂等挑战。根据Coatue 数据,具身机器人数据集仅2.4M,远低于文本和图像数据集。2024 年,全球多家机构发布高质量具身智能数据集,如智元机器人等发布的 AgiBotWorld,谷歌 DeepMind 等发布的 Open X-Embodiment 数据集等。

机器人数据采集方法主要有遥操、动捕与仿真,呈金字塔结构。底层是互联网数据和生成数据,量大但难以复现物理世界复杂性;倒数第二层是人类动作捕捉数据,精度较高但存在具身差距;顶层是遥操数据,数据量最少、成本最高,但可用性和准确性有保障。

遥操是数据采集金字塔顶端,通过人类操作员远程控制机器人执行任务收集数据,能模拟人类行为和认知过程,数据更自然等,有助于提高机器人模型精准性和可靠性,还可用于危险作业场景。

动捕是数据采集金字塔中端,依赖高精度摄像头和先进算法,能实时捕捉、分析人的动作并模拟反馈,视觉动捕技术高效精准,适应性好,在人形机器人领域可实现更自然的人机交互。

仿真是数据采集金字塔底端,利用计算机仿真技术生成数据,可在无实体机器人时测试验证,降低成本等,但可能与实际数据有差异。真实数据与仿真数据各有优劣,未来混合使用有望成为主流,能结合两者优势提高机器人系统泛化能力。

二、机器人训练场

全球范围内,在训练场规模化生成具身智能数据的共识逐渐形成。如特斯拉的Optimus 人形机器人训练场、谷歌的 RT-X 训练场等,还有斯坦福大学与谷歌 DeepMind 合作推出的 ALOHA2 具身智能框架,以及 DeepMind 联合 21 家机构创建的 Open X-Embodiment 数据集。

国内人形机器人训练场进展迅速,2025 年 1 月 21 日,全国首个异构人形机器人训练场在上海张江的国地中心正式启用,首期部署超 100 台异构人形机器人,聚焦多个重点领域场景应用,构建可重构应用场景,推出开源数据集,与多家企业签署合作协议,未来有望成为国家级平台。国地中心首创 “异构人形机器人具身智能数据集构建方法”,实现高效数据采集,推出开源公版机和社区,旨在解决行业问题,预计到 2025 年将收集 1000 万条高质量实体数据。

▍动捕系统成为人形机器人破局关键

动作捕捉技术通过记录和分析真实物体或人物动作并转换为数字数据,应用于多个领域。其发展从20 世纪初手工绘制关键帧起步,经历光影法等早期方法,到电容式传感器等初步数字化手段,再到现代高科技手段,不断向更高精度、更广泛应用方向演进。

动作捕捉系统由硬件和软件构成。硬件包括传感器(如光学传感器、惯性传感器等)、信号捕捉设备(如光学摄像机等)、数据传输设备(如无线模块、有线电缆等)和数据处理设备(如计算机或服务器);软件包括系统设置模块、空间定位定标模块、运动捕捉模块和数据处理模块。整个系统通过硬件捕捉信号,软件处理分析,生成三维运动数据。

动作捕捉系统按技术原理可分为机械式、声学式、电磁式、惯性传感器式、光学式等,光学式又分标记点式和无标记点式。机械式成本低、精度高但动作表演受限;声学式成本低但精度和实时性差,易受干扰;电磁式能记录六维信息,实时性好但对环境要求高,采样率较低;惯性传感器式便携、操作简单但空间定位不够准确,有运动定位限制等;光学式基于计算机视觉原理,精度和效率高,应用广泛。

在具身智能机器人领域,构建高质量训练数据集是提升性能的关键,规模化生产数据集能显著提升机器人学习效率和任务执行能力。现实厂商通常选择基于真实本体和基于虚拟本体进行数据集生产。

基于真实本体的数据集生产,是让真人穿戴动捕设备遥操作真实机器人完成任务,同时采集相关信息,如特斯拉采用此方法,数据质量最高但成本也最高,能最大程度反映真实世界物理特性。

基于虚拟本体的数据集生产,是让真人穿戴动捕设备遥操作虚拟环境中的机器人完成任务,采集虚拟合成信息,数据质量高但存在环境互通性问题,Nvidia 等厂商力推此方法。

在具身智能机器人遥操作数据采集过程中,数据的连续性和鲁棒性比精度更重要,厘米级精度足以满足需求,盲目追求高精度可能导致后期数据清理成本过高。

▍六家动作捕捉产业链标的企业

(1)度量科技

北京度量科技有限公司是一家专注自主研发、生产制造和销售光学三维动作捕捉系统的高新技术企业,已获专精特新企业、瞪羚企业等称号。其核心产品为NOKOV(度量)光学三维动作捕捉系统,通过高性能红外摄像头对反光标识点进行精准捕捉,生成实时且精确的动作信息。

该系统具有明显优势:分辨率达800 万 pixel,频率为 340fps,精度可达 0.01mm/0.1°,具备高分辨率、高频率、高精度特点;镜头数量无上限,集成 POE 数电同传技术,拥有自主知识产权。其应用领域广泛,可实现无人机室内精准定位控制,助力电影特效制作中演员动作的逼真还原,为运动分析提供精确数据以辅助运动员提升表现,是推动多行业发展的重要技术支撑。

(2)凌云光

凌云光是可配置视觉系统等的专业供应商,是我国较早进入机器视觉领域的企业。公司构建了完备核心技术体系,自主研发多种核心部件和模块等,战略布局国内高端 CMOS 成像芯片,在多个工业领域具备自主研发能力,还成立 “知识理性研究院” 构建图像算法与软件平台。

其自主开发的 FZMotion 光学运动捕捉系统,具备实时跟踪测量等功能,由 Swift 系列光学运动捕捉相机和智能分析软件构成,支持多种数据传输协议和软件接口,具有强大的抗遮挡能力和数据自动修复功能,广泛应用于多个领域,为具身智能领域提供技术支持。

(3)奥飞娱乐

奥飞娱乐成立于 1993 年,是国内第一家动漫上市公司,致力于打造以 IP 为核心的动漫文化产业生态,依托 IP + 全产业链运营优势,打造多业务运营平台,拥有多项优质动漫 IP 和多个知名文创消费品牌。

奥飞娱乐在动作捕捉领域主要聚焦对诺亦腾的投资。诺亦腾的动作捕捉业务提供全链条解决方案,核心技术基于 MEMS 惯性传感器,开发多种高精度、低延迟产品,应用于多个领域,还与 NVIDIA Isaac 合作,为多家企业提供技术支持。

(4)利亚德

利亚德是全球视听科技产品及其应用平台的领军企业,专业从事 LED 应用产品相关业务,在全国各地承建众多项目,部分产品获多项认证,参与多项国家标准起草,拥有多项资质,业务布局覆盖多个领域,获多重荣誉。

利亚德在动作捕捉领域围绕子公司虚拟动点和 NaturalPoint 展开,核心技术为 OptiTrack 光学动作捕捉技术,应用于多个领域,为多部影视作品和游戏提供技术支持,还推出无标记点动作捕捉解决方案,在人形机器人领域与多家研究企业合作,发布动作大模型 Lydia,拓展应用范围。

(5)洲明科技

洲明科技自主研发的非穿戴式人体姿态动作捕捉系统 UAction,依托计算机视觉与人工智能技术,通过多摄像头布局结合深度学习算法,实现对人体各关键点的实时追踪与姿态分析。用户无需佩戴任何设备,即可借助该系统精准捕捉细微动作,且数据能以毫秒级延迟反馈至虚拟环境。

与此同时,洲明科技积累的数千套高精度数字人动作数据,可直接迁移至机器人三维空间动作训练,有效提升动作拟人化水平。公司持有的非穿戴动作捕捉专利,降低了部署成本,使其能够适配多种机器人应用场景。通过整合数字人动作库、非穿戴动作捕捉技术及真人动捕,形成三位一体的动作训练系统,助力机器人在复杂环境中实现更灵活自然的动作表现,为未来人形机器人产品的智能化发展奠定坚实基础。

(6)芯动联科

芯动联科于2012年成立,公司核心技术聚焦于高性能硅基 MEMS 惯性传感器。在 MEMS 惯性传感器芯片设计、MEMS 工艺方案开发、封装与测试等环节形成技术闭环。其核心产品 MEMS 陀螺仪和 MEMS 加速度计,各含一颗 MEMS 芯片与 ASIC 芯片。MEMS 芯片有独特驱动和检测结构,保障高性能、易量产和环境适应性;ASIC 芯片运用闭环驱动等技术及智能算法,确保产品精度、稳定性等,还能降低成本。在封装上,采用 CLCC 封装技术,减少封装应力影响,提高抗冲击能力。产品已广泛用于工业生产、汽车辅助驾驶、石油勘探等领域,如今芯动联科正将业务拓展至机器人动捕设备方向,可为开发人形机器人动捕硬件提供底层关键部件。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。