梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
黄仁勋正在像押注OpenAI一样在中国押注未来的具身智能巨头。
英伟达给刚创办的OpenAI送超算这个事已经被大家津津乐道,现在他们正在把这个经验 复用到机器人领域。
中国首批Jetson Thor芯片送到了 银河通用手里,在机器人世界大会展示无人售货场景机器人的丝滑漂移、规划能力也明显提升,惊艳全场。
背后的Jetson Thor的性能提升也令人印象深刻:计算能力是上一代Jetson Orin的7.5倍,接近10倍;每瓦性能提升3.5倍;I/O吞吐量提升10倍,满足高带宽感知需求。
同样与英伟达密切合作的还有宇树科技。
宇树科技创始人王兴兴、银河通用CTO王鹤上午还在世界机器人大会,下午就来到英伟达,与 英伟达Omniverse和仿真技术副总裁Rev Lebaredian一起出席活动。
两位创始人风格迥异。
王兴兴语速飞快,连英伟达副总裁耳机里的AI翻译都跟不上他的节奏。谈起人形机器人落地,他的观点直接而犀利:“人形机器人最大的问题还是模型不够泛化,硬件在过去一两年已经足够用了。”
作为北大副教授的王鹤则像在讲课,条理清晰地分析着机器人产业的发展路径,对于人形机器人的市场前景,他给出了一个大胆的预测:每三年产值乘10。
两家公司做的事风格也大有不同,宇树科技主打足式机器人,走“运动优先”的路线;而银河通用依托仿真合成数据推动人形机器人在轻工业和零售场景快速落地,走“智能优先”的路线。
除了银河通用和宇树科技,阿里云、北京人形机器人创新中心、傅利叶、加速进化、优必选、智元机器人等企业都在与英伟达深度合作。阿里云更是宣布,英伟达全栈机器人及物理AI组件已通过其云端服务开放使用。
就像当年英伟达押注OpenAI一样,不同的是,具身智能时代不会只有一家独大——黄仁勋这次把筹码分散下注在了多家中国机器人公司身上。
踩着AI大模型产业发展的经验,具身智能时代的一切都在加速。
宇树科技王兴兴:未来组装机器人像组装电脑
我们在过去几年中一直非常重视人形机器人这一方向。
某种意义上,我将人形机器人视为通用机器人的重要载体。众所周知,通用AI是目前全球最主流的发展方向,而真正的通用AI在执行任务时必然离不开机器人,尤其是通用型机器人。
对比来看,目前人形机器人反而是最理想的专业机器人形态。虽然看上去较为复杂,但实际结构并不如想象中那么复杂,本质上是由若干关节电机串联而成。因此结构相对简单,不像履带式小车或其他形式的机器人反而更复杂。由于主要是电机和连杆的组合,所以整体设计简洁。我一直相信,当通用AI大规模成熟后,每个人都可以轻松制造一台人形机器人,就像今天人们可以购买电脑零部件组装一台电脑一样。未来若AI足够强大,对硬件的要求会越来越低。
此外,我们近期发布了A2机器狗,其最大特点是在紧凑轻量化设计下实现了较大负载能力。自重约37千克,持续负载可达30千克,空载续航可行驶20公里。其外观吸取了以往的设计经验,更具科幻感,且具备防尘防水性能。我们一直希望机器人能在工业场景中替代人类完成繁重、危险或重复性工作。我们的机器狗在一些公益项目中已实现24小时不间断运行,具备自动充电和巡逻检测功能。
去年底我们升级了轮式机器人,这款产品较大,自重约70~80千克,因此部分场景不便使用。为此,我们推出了更小型且防尘防水的版本,适用于室内外多种场景。虽然体型较大,但灵活性依然优秀。通常小型机器人灵活性更强,而大型机器人灵活性较差,但我们在较大尺寸下依然保证了良好的运动性能。
今年1月,我们的机器人登上央视春晚,最大亮点是全自动编队跳舞。它在头部配备三个激光雷达,可自动建图并变换队形。为适应舞台演出,我们将后台控制权交给舞台控台,使音乐与动作实现毫秒级同步。此次演出共有16台机器人,统一连接至我们后台服务器,再接入舞台系统。该项目的最大挑战在于多机协作及复杂的编程维护。目前,这些机器人在澳门美高梅每日进行表演。
在动作学习方面,我们通过采集人体动作数据并结合深度强化学习进行训练。不同于语言模型训练,动作训练只需少量真实数据,其余由强化学习完成。我们主要使用NVIDIA的Isaac Sim平台进行训练,已掌握舞蹈、跳跃、空翻等多种动作。当前限制机器人执行更复杂动作的最大因素并非算法,而是硬件物理极限。例如,要将奔跑速度从每秒3~4米提升到10米,对硬件的改进需求极高。
我们同样重视机器人上肢和手部的研发,目前已自主开发一款约20自由度的灵巧手,目标是让机器人真正能够执行日常任务,而不仅是完成展示性动作。希望在未来一到两年内实现自然交互,例如在没有预先适配的情况下,直接指令机器人去为某人倒水。
今年5月底,我们与央视合作举办了一场机器人格斗赛,时长约1.5小时,包含4个团队参赛。格斗赛的算法复杂度高于舞蹈或功夫表演,因为动作组合是随机且存在强干扰,要求动作衔接流畅并可自由组合。我们的目标是在未来实现“任意动作的任意实时生成”。
此外,我们还发布了R1机器人,重量约25千克,轻便且安全。虽然体积较小,但动力性能强劲,主要面向工业应用。其算法与人形机器人类似,但由于四足机器人的稳定性更好,可完成更剧烈的动作而不易损坏,且具备较强的越障能力。
回顾过去,AI与机器人技术的发展始终是全球协作的成果。包括NVIDIA在内的多方力量一直推动机器人与AI领域的全球合作。在通用智能大模型和真正能执行任务的机器人普及之前,我们仍需共同努力,推动人类进入下一个科技时代。我相信,AI与机器人技术将像电力与蒸汽机的发明一样,使人类文明迈向新的高度。
银河通用王鹤:通用机器人将成为下一个数万亿人民币市场
今天我想与大家分享,银河通用通过与NVIDIA的一系列合作,从仿真到可落地的产品,利用合成大数据赋能的VLA驱动工业级机器人。
首先,我认为今天在场的所有机器人公司,包括NVIDIA和银河通用在内,我们的共同目标都是打造通用机器人。这样的通用机器人将成为下一个价值数万亿美元、数万亿人民币市场的关键性、革命性产品。
这种革命性产品背后包含多个核心要素:
第一个要素是机器人的本体;
第二个要素是驱动它运转的具身智能模型;
模型背后则是数据支撑——什么样的数据能训练出这样的能力。
接下来,我将依次分享银河通用在这些方面的探索与成果,并介绍最终落地的产品。
一、机器人硬件本体
银河通用与其他公司的不同之处在于,我们的机器人并非完全人形,而是轮式双臂双手的形态。我们采用轮式底盘,主打高续航、工业级安全性,以及可实现大规模、高可靠交付的能力。银河通用G1机器人于2024年5月首次亮相,经过一年多迭代,目前在自动充电、运行流畅度与稳定性方面均已达到大规模自主商用的标准。
特别感谢NVIDIA,我们率先在中国将NVIDIA Jetson Thor芯片部署于人形机器人之中,也是全球最早收到该芯片的公司之一,并在本次WRC大会上实现了现场部署。在演示中,配备该芯片的机器人展现出丝滑的运动性能以及实时的货箱视觉处理与运动规划能力,速度显著提升,赢得现场观众一致评价为“最快的人形机器人”。这背后离不开强大芯片的支撑。
二、具身智能大模型
我们的机器人之所以能够在复杂环境中高效导航,源于银河通用长期研发的大规模具身大模型VLA。其中,导航大模型只需一句话指令即可在场景中自主运动。 “六一”儿童节前夕,我们全球首发了无需建图、可在任何复杂场景中跟随人的TrackVLA,能够自然语言交互、穿梭障碍物,全程自主运行,即使在人流干扰下也能稳定跟随。
上半身操作方面,我们全球首发了抓取基础大模型Grasp VLA,实现了抓取动作的实时闭环生成。在各种光照条件和挑战性背景下,均能实现指定物体的零样本抓取,且无需事先训练该物体。这为未来“自然语言+即时执行”奠定了基础。
基于Grasp VLA,我们打造了零售场景应用——在2024年上海WAIC大会上,李强总理亲自体验了真实货架抓取。无论瓶装、袋装、散装、挂装或软体物品,均可由同一模型完成抓取与递送。这是全球首个可应对50多种不同物体摆放、且从刚体到软体全覆盖的端到端零售大模型。
三、合成数据与仿真技术
银河通能在全球率先推出多款基础大模型,并能在真实商店场景稳定应用,得益于NVIDIA提供的全套仿真引擎。我们与NVIDIA一致认为,合成数据是推动具身智能快速落地的关键。目前,真实世界数据仅占我们训练数据的1%,其余99%均为合成数据。
我们将自研机器人模型、大量物体与材质资产输入合成管线,经NVIDIA引擎完成仿真验证与物理渲染,生成全球首个百亿级抓取操作大数据集,以及全球首个百亿级柔性物体操作大数据集。这些数据使我们的模型在真实环境中具备极高的鲁棒性与泛化能力。
四、下一代人形机器人研发
我们还与NVIDIA联合官宣了基于Isaac平台的下一代人形机器人项目。目前银河通用为轮式形态,下一代将采用纯双足设计,基于OpenWBT_Isaac进行数据采集与遥控控制。无论在仿真环境还是现实环境,该平台可训练并部署多种任务能力,例如推车、拾取地面物体等。
五、商业化落地案例
银河通用的多项技能已实现完全商用。我们推出了全球首个24小时无人药房解决方案,在北京、上海、深圳等地签约超过100家药店。用户通过APP下单后,由机器人在店内完成取药并交付外卖员,该方案已吸引多位政府领导与外国元首参观。
2024年,我们还官宣了24小时无人零售店项目,将在10个城市的百处核心商圈和旅游景点部署银河通用“太空舱”零售终端,销售饮品等商品。目前已在北京海淀区大融城落地。
银河通用成立两年来已完成超过20亿元人民币融资。我们将继续与NVIDIA等合作伙伴携手,打造服务千行百业、千家万户的通用机器人。
英伟达:为具身智能提供三台计算机
NVIDIA也为这幅拼图贡献了独特的一块。
从一开始,我们的使命就不是解决所有问题,而是打造专门针对“最难问题”的计算机。我们打造的特殊计算机,能够解决几乎不可能完成的难题——而机器人就是其中最难的问题之一。我们早已梦想参与解决这一问题,并为此努力了很长时间。
在机器人领域,我们必须打造三台计算机:
1. 机器人本体计算机:嵌入在机器人内部,例如自动驾驶汽车或人形机器人中的计算机。专门为人形机器人打造的Jetson Thor就属于这一类,今年在 WRC 展会上,就可以在 Galbot 和其他展出的机器人上看到它们的身影。
2. AI工厂计算机:在使用机器人本体计算机之前,必须先开发它的“大脑”。需要依赖 DGX 和 HGX 系统,处理海量原始数据,生成物理 AI 算法、物理 AI 模型和神经网络,再部署到机器人上。
3. 仿真计算机:物理世界的数据无法直接从互联网获取,只能通过两种方式获得:真实世界传感器采集;基于物理定律和世界规则进行计算机仿真生成。仿真不仅能生成数据,还能在部署前测试机器人,确保它们在真实环境中安全运行,且测试速度可快于现实时间。
四、Isaac平台与Jetson Thor
在机器人领域,NVIDIA 拥有完整的Isaac 平台,它结合了硬件与三台计算机所需的软件栈,包括:
运行时和计算环境
仿真工具
训练框架
NVIDIA Jetson Thor是一款专为物理世界中的智能推理代理(特别是机器人)打造的超级计算机,黄仁勋称它为“实时推理机器”。
Jetson Thor 性能亮点:
计算能力是上一代Jetson Orin的7.5倍,接近10倍;
每瓦性能提升3.5倍;
CPU 性能提升3.1倍;
I/O 吞吐量提升10倍,满足高带宽感知需求。
Isaac 平台还包括 NVIDIA 的模拟器与仿真框架:
Isaac Sim:环境和传感器仿真、机器人测试、生成合成数据。
Isaac Lab:强化学习的仿真平台。
NVIDIA Cosmos:世界基础模型及框架,支持构建理解物理世界的 AI,并与 Omniverse 等模拟器结合,生成更精确、更大规模的数据。
世界基础模型虽然还处在起步阶段,尚不能完全理解世界,但已经非常有用,并为机器人研发带来了全新能力。