第一财经
不同硬件、不同大脑,不同机器人厂商进入不同场景,在多方变量的加持下,机器人的规模化落地似乎遥遥无期。
9月17日,第一财经记者在采访第三方部署方、机器人本体厂商和场景落地方时发现,一个行业新角色正在出现。一个类似于安卓操作系统的中间算法层正在承担屏蔽硬件差异、兼容不同大脑架构的功能,为机器人在真实场景中的规模化落地提供可能。
如今,这一产业角色已经吸引了谷歌、智元、富临精工(300432.SZ)、格力博(301260.SZ)、东土科技(300353.SZ)、巨星新材料等企业押注。但在硬件厂商坚持自家体系、大模型企业追逐通用智能的格局下,行业的“安卓时刻”何时到来,仍有待市场与现实工况的双重检验。
机器人涌入场景,跨本体训练遇阻
当机器人厂商涌向场景方,新的问题正在出现。
“这个月至少有两家机器人公司正在和我们谈合作。”Kelvin是长三角一家物流上市公司的技术负责人,他告诉记者,为了和人形机器人厂商进行合作,自己不得不拨出一个八人左右的团队和不同机器人企业进行对接。“我们需要开放不同的数据接口,提供一个专门的实验场景,还需要根据各家机器人的要求不断调整流程和测试参数”。
在大量的人力和物力投入之外,Kelvin坦言自己算不过来ROI(Return on Investment,投资回报率)。“机器的工作效率不稳定,且运维需要大量后续的费用。”他向第一财经记者透露,物流企业马上就会备战“双11”时间,在此期间是否继续让机器人上岗,他还在犹豫。
更大的问题是,由于不同厂商的机器人算法不兼容、硬件各自封闭,导致一个场景的成功经验难以迁移到另一个场景。“有的时候我们的流水线哪怕是多一个弯折,机器人都需要重新走一轮POC(Proof of Concept,概念验证)。”
“厂商觉得我们不够开放,我们觉得机器人厂商要得太多。”Kelvin说,这是产业上下游之间对接存在的普遍问题。第一财经记者了解到,一些“中间人”的角色正在产业链中诞生。前上汽自动驾驶域控制器算法负责人,安努智能工程算法总监杨曾告诉记者,团队正在研发的一套中间件算法平台,希望像手机里的操作系统一样,把不同厂商的机器人纳入统一的兼容框架。
就像手机的操作系统让不同软件在同一套规则下运转一样,中间件希望能够通过屏蔽底层硬件差异,使一套算法能够迁移到不同厂商的机器人上。“如果每遇到一个新的硬件,就要重新训练,机器人在实际场景部署的速度就会非常慢。”重庆大学助理教授,人工智能及多模态实验室具身智能负责人,安努智能首席科学家胡喆告诉第一财经记者,想要提高机器人的通用化,跨本体是必须跨过的门槛。
在不改动模型本身的前提下,兼容不同机器人的大脑,成为中间件的挑战。“虽然主流的模型是VLA模型(Vision-Language-Action Model,视觉-语言-动作模型),但其中的架构仍然不同,有端到端,也有分层式。”胡喆说,中间件在机器人大脑和机器人作业的实际场景中充当一个“翻译官”的角色。在他的设想里,输出的指令会先被中间件被转化为统一的目标和约束,再交由各家机器人自身的规划控制器执行。
“这样我们就不必为每一个新厂商重新训练模型,只需要向每一个机器人的规划控制器下达指令,就能让中间件跑通整个流程。”胡喆说。
物理规律难仿真,机器人“干中学”
“我们曾经试过,在实验室里跑通了所有算法,结果到实际场景中发现完全不是一回事儿。”钛维云创的创始人张磊告诉记者,当自己试图让机器人处理布料这样的柔性物体时,由于布料材质、厚薄、摩擦力不同,实验室的环境并不能完全满足操作需要。
张磊透露,像布料、不规则包裹等物体,POC周期“很长,且难以给出确切的时间”,“因为我们需要提前磨合算法、下线采集数据、再拿到实验室反复训练,才能勉强适配场景”。
工厂中的物料、工艺成千上万,换一条生产线、换一个工位,都可能带来完全不同的情况。
“离线的强化学习不可能把所有真实场景一网打尽。”胡喆告诉第一财经记者,机器人不仅需要根据场景反复调试算法,还往往要重新采集数据回到实验室做离线训练,这让整个周期被拉长,时间和人力都被大量消耗。
边做边改,或许才是机器人进行学习的关键。
胡喆透露,他正在尝试利用实时的在线学习算法,允许机器人在实际作业过程中一边操作一边采集数据,并实时更新模型。这种方式只需在现场额外增加几秒钟运行和100个数据量,“我们会根据模型出来的结果选择数据,让机器人在不断学习的过程中遗忘无用的数据,保持数据的精简,也不会对算力提出过多的要求”。
机器人“干中学”的另一边,团队也在尝试利用仿真等手段降低机器人的学习成本。“现在大部分机器人仿真环境离现实工况还有很大差距,因为仿真环境中缺乏物理定律的支撑。”美国肯塔基大学空气动力实验室仿真负责人、安努智能联席科学家付博直言,大部分仿真平台依赖数据驱动,却缺乏物理定律的支撑。
“如果只是换个环境光影、物体形状等表层变量,那在这种仿真里能跑通的算法,一旦放到现实中,往往会失效。”付博说。
让虚拟环境逼近真实世界,并不是一件容易的事。“摩擦力、空气流动等连续变化的环境很难被拆成可以极端的小单元。”付博解释,以机器人搬箱子举例,这个场景涉及了力学、刚体运动学与工程力学等基本的物理规律。付博说,加入这些规律的仿真能够模拟不同重量箱子堆叠时的微小形变,计算箱内散落零件导致的重心偏移,并让机器人理解物体变化对抓取稳定性的影响,以及机器人发力点与物体形变的关联。
他坦言,将这些物理定律的融入仿真环境是一个“正在进行的过程”,需逐步攻克计算量庞大的技术难题。付博认为,只有当机器人在仿真环境中充分理解并内化这些物理规律,才能在真实场景中更好地应对突发情况,实现泛化能力的提升。“模型永远无法完全替代实验,但我们希望通过极致的物理仿真,让真实实验只需做一次就能验证可行性。”
谷歌提前布局,中间件或成规模化关键
从机器人本体和大脑厂商到最终的应用企业,中间还需要大量复杂的部署工作——包括接口打通、场景适配、算法迁移等环节。对整个产业链而言,这是一块颇具吸引力的“肥肉”,盯上的远不止安努智能一家企业。
今年6月,银河通用和博世中国成立合资公司博银合创。根据双方披露内容,合资公司将聚焦复杂装配、智能质检等高精度制造场景,并且构建标准化、模块化、可复制的训练与部署体系,支撑机器人产品的快速迭代与规模化部署。
今年年初,富临精工宣布公司与智元机器人等相关方签署了《人形机器人应用项目投资合作协议》,各方共同投资设立合资公司实施人形机器人项目。当前,富临精工、智元、巨星新材料均为安努智能股东。就在9月,专注于北美市场的产业股东格力博、聚焦机器人操作系统的东土科技也宣布增资安努智能。
在海外,Google(谷歌)的母公司Alphabet孵化的Intrinsic也在扮演类似的角色。Intrinsic试图通过通用算法和工具链降低机器人系统的集成成本,让不同厂商的机器人在同一套兼容框架下运行。
通过一个类似操作系统的中间件来对接不同机器人厂商和场景,这是安努智能董事长文宏杰提出的解题思路。虽然路径各异,但上述三家兼具机器人和产业方背景的第三方部署商,它们的共同点都是试图在碎片化的产业格局中,寻找一套能跨越厂商和场景的兼容方式。
不过,机器人产业是否会像手机产业那样,最终走向由统一“操作系统”支撑的格局,仍充满疑问。一位由数码3C行业转至机器人产业的工程师告诉第一财经记者。与手机产业面临的问题不同,机器人领域的情况更为复杂,硬件厂商坚持各自的体系,而大模型企业则瞄准通用智能,“屁股决定脑袋,大家想的未必是同一个目标”。
多方角力之下,第三方部署商设想的中间件是否能够建立起产业上下游的桥梁,还需要进一步观察。“模型如果停留在实验室、本体如果只会跳几支舞,那最终只是一个故事。”文宏杰认为,在当下的机器人产业,关键不是讲模型和本体的“故事”,而是扎进具体场景,通过部署获取真机数据和工程化经验,将商业化的流程拉通、沉淀。
在他看来,这些工程化的经验和数据才能汇聚成类似“操作系统”的底座,真正支撑机器人跨厂商、跨场景的落地。“如果中间件能够像安卓这样的操作系统一样稳定通用、开放兼容,任何厂商都能接入,机器人产业的规模化会越来越近。”
(本文来自第一财经)