当前位置: 首页 » 资讯 » 新科技 » 正文

从空间智能到具身智能,跨维践行Sim2Real AI最高效路径

IP属地 中国·北京 编辑:周琳 博客中国 时间:2024-07-22 16:09:58

具身智能狂潮降临的一年多里,物理世界与信息的生产与交互方式发生着革命性变化。

与此同时,一场新的争夺战正悄然打响:各大厂商绞尽脑汁,以夺取最有价值的 AI “燃料”—— 数据。当前,数据匮乏仍是通用具身智能面前的高墙。纵观过去三年,在谷歌、英伟达、OpenAI 等知名企业对具身智能的研究中,暂未窥见 Scaling Law 的出现,这与缺少各类数据有关。

如何解决这一根本性痛点?从技术的角度,Sim2Real AI 是一个长期存在的路径。但由于对消弭 Sim2Real gap 存在 “理念型偏差”,学术界和产业界更多地将其视为一个辅助的数据补充手段。

但是否真的如此?

香港中文大学(深圳)终身教授、跨维智能创始人贾奎通过从学术界到产业界的长期践行,给出答案:“Sim2Real AI 正是通往具身智能的最高效路径。”

从二维视觉到三维视觉、从空间智能到具身智能、从科研到产品再到商业落地,贾奎在这一领域已探索了二十余年。近期,在 WAIC 上,进行了一场关于具身智能如何突破数据困局的对谈。

如果用 AI 来试图理解这次对谈,它也许会帮助你概括出这些要点:

当下最火热的空间智能和具身智能的本质是什么?

以 Scaling Law 范式实现空间与具身智能的具体涵义是什么?

哪条路是实现通用具身智能的最高效路径?

具身智能如何从技术到产品再到商业落地?

未来,有哪些能够突破行业生产范式的想象成真?

当然还有 AI 暂时理解不了的部分 —— 这位科研工作者、创业者,展现出了其坚定信心及历史使命。

以下为访谈实录:

建立 “世界模型”

触发机器人 “灵性”

问:被誉为 “AI 教母” 的李飞飞教授首次创业即选择了 “空间智能” 方向,引发了对这一领域的广泛关注。可以谈谈您对空间智能和具身智能的理解吗?

贾奎:空间智能和具身智能是近年来进入到社会层面备受关注的话题,但其背后的学术研究已经持续了很久。空间智能(Spatial Intelligence)是一个多维度的概念,通常指个体在三维物理空间及四维时空中的认知和推理能力,包括感知、推理、决策等方面。具身智能(Embodied Intelligence)则是指智能系统具备物理形态,并通过这个形态与环境进行交互的智能。具身智能不仅仅关注感知,还包括智能体对环境的行动和反应。就像人类使用双眼感知世界一样,具身智能要求机器人能够通过多模态传感器进行感知、交互和决策,形成综合的空间认知和操作能力。

问:空间智能与具身智能的异同点是什么?

贾奎:就像前面提到的,空间智能赋予 AI 感知并理解现实世界的能力,而具身智能则不仅需要空间智能涉及到的对物体、环境及其他智能体的感知和认知推理,还进一步涵盖了机器人操作所需的高级运动规划和低级运动控制,以及由机器人本体与操作对象交互所定义出的类似人类操作能力的各类机器人 “技能”。每一种技能的掌握,意味着机器人可以处理与该技能相关的各种物体对象,而不仅仅是一个特定的、具体的对象。

这些技能包括 “子技能” 和 “原子技能” 的集合,形成了一个机器人技能库,或称为 “技能空间”。具身智能的本质是学习并泛化这个技能空间,从而实现像人类一样具备具身属性的通用人工智能(AGI)。

在具体应用中,空间智能范围更广,可以是附着在机器人身上,也可以脱离机器人,本质上是一个对空间的理解的问题,例如它的重要应用 AR/VR。而具身智能则主要体现在机器人身上,特别是通用(人形)机器人。

总的来说,空间智能更多地关注四维时空中的认知和推理能力,而具身智能则进一步包括了通过物理形态与环境进行直接互动的能力。

问:您为什么会选择空间与具身智能方向创业?

贾奎:可以说我们对这一领域关注得很早,有深厚的历史沉淀和技术积累。团队在早期就成立了 “几何感知与智能实验室”,当时这一领域尚未被大家所熟知的 “大厂” 涉足。我们是中国最早将人工智能技术应用于三维等非欧数据的学者和团队之一。

我们团队在几何深度学习、三维建模、空间感知、机器人应用等方向进行了大量交叉创新研究,取得了一系列代表性成果,包括 Grasp Proposal Networks (NeurIPS 2020), Analytic Marching (ICML 2020/TPAMI 2021), Sparse Steerable Convolution (NeurIPS 2021), 3D AffordanceNet (CVPR 2021), Fantasia3D (ICCV 2023), SAM-6D (CVPR 2024) 等等。

DexVerse™ 2.0 引入了全新的 4D Mesh 技术,专为动态物理仿真和数据渲染生成而设计,可统一处理刚体、软体、流体等多种对象。作为引擎的核心表达形式,4D Mesh 将贯穿物理仿真、数据标注生成到大模型训练的整个流程。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927069&idx=1&sn=32b8072ec663f02350d310f082511ebb&chksm=84e42ba3b393a2b5a5ca60fb8582ae4320820f4eb88e827a2f5830eedcc274e6a904482c6f59&token=263296417&lang=zh_CNrd

通过这个全自动化引擎,通用机器人修炼具身智能技能 / 子技能的飞轮将最高效地转动起来,推动通用机器人在更多场景实现落地。跨维将与更多产业方合作,开放生态,合作共赢,共同推进中国具身智能与通用机器人产业高速发展。

问:跨维为什么选择自研引擎?跨维 DexVerse™引擎与英伟达的 Omniverse™有什么差异?

贾奎:跨维做具身智能引擎与英伟达的 Omniverse™等引擎的理念是完全不同的。

如果说 Omniverse™是横向拓展,覆盖机器人、科学计算、AI for Science 等不同板块,同时为英伟达的 AI 算力产品服务,那么跨维的 DexVerse™则是端到端垂直打穿,引擎的迭代演进是为实现垂直场景中的具身智能技能任务服务的。

在当前 Sim2Real AI 仍处于创新驱动产品业务落地的阶段,只有依托自研引擎,才能支撑研发过程中从物理仿真、数据渲染生成、自动标注计算、具身智能模型设计和训练的各个环节,逐点攻关,掌握 know-how, 才能实现产品在业务场景中的真正落地。

具身智能商业落地的 L1-L5 之路

问:您认为具身智能从技术到产品再到商业落地,需要怎样的实现路径?

贾奎:具身智能的本质,是通过学习包含各种可泛化技能的机器人技能库,赋予各类机器人在不同应用场景中的通用操作能力;因而其商业化落地,必须以工业、农业、商业、个人 / 家庭等一个个有边界的商业场景为目标,“以终为始”,通过建立独立商业场景中的机器人通用技能,形成产品价值和商业落地。

技术上,具身智能必须以 Sim2Real AI 的方式,打通任务理解、数字资产生成、数据仿真生成、AI 模型训练的自动化链条,以最高效的方式实现通用机器人任务学习,并在这个过程中形成适用不同商业场景的软硬件产品,包括具身智能 SoCs、智能传感器、通用机器人控制器等。

路径上,具身智能需要首先赋能机械臂、复合机器人等等相对成熟的硬件本体,并随着灵巧手、人形机器人等通用本体的成熟量产,进一步提升整体能力,产生更大的商业价值。

问:基于您提出的高通用性具身智能 L1-L5 五个阶段,跨维当前到哪个阶段了?

贾奎:跨维基于自研的 DexVerse™具身智能引擎,已经建立了服务智能制造、智慧农业等应用场景的场景任务理解、数字资产生成、数据仿真生成、AI 模型训练等全链条能力,并形成了包括智能视觉传感器、PickWiz 软件、复合机器人等具身智能产品。

目前,跨维已经跑通了 “Simulation to Reality” 的商业模式,在汽车零部件、3C 制造、新能源、家电、化工、物流等 30 余个行业中落地,合作了包括广汽、美的、海尔、松下、蓝思科技等在内的众多行业头部客户。

参照上图 L1-L5,跨维已完成具身智能 L1 阶段的发展,正在稳健地迈向 L2 级,这在全球范围内,都是屈指可数的。

问:您认为具身智能、人形机器人的终局生态链是怎样的?跨维会做(人形)机器人硬件整机么?

贾奎:通用机器人终局生态链由人形本体厂商、零部件厂商、视触力等传感器厂商、具身智能芯片与方案供应商等组成。跨维 DexVerse™具身智能引擎在产业链去往终态的过程中,在技术路径、产品形态、场景业务落地等方面将发挥决定性作用,通过 DexVerse™的 Sim2Real AI 全链条能力,以终为始,从商业闭环的方式推动具身智能机器人在硬件构型、传感器选型、数据模态范式及多模态大模型等方面统一标准。

跨维已形成复合机器人、智能视觉传感器、PickWiz 软件等具身智能产品,在落地更多商业场景的过程中,跨维将首先赋能相对成熟的移动 / 轮足底盘 + 双机械臂的具身智能本体,并最终与人形机器人本体厂商形成合力,实现通用具身智能的广泛落地。

来源: 机器之心Pro

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。