7月末,2025世界人工智能大会现场人潮涌动。智能终端展区H3馆内,两台名为“小量”和“小白”的通用轮式双臂机器人“量子1号”,成为全场焦点。一举一动,皆引参展者驻足。在复杂开放的会场环境下,只需简单的语音指令,“小量”就能根据参展者喜好,自主拿起对应颜色的香包,制作个性化香囊。任务全部完成后,还能把香囊精准递送到参展者手中。和“小量”同时执行任务的,是家务整理区的“小白”。它正在将废纸团、空饮料瓶等垃圾扔进垃圾桶,并把随机散落的衣物收纳进脏衣篓。家务整理完毕后,“小白”主动将存放在货架上的香囊材料放至补货台,等待“小量”过来拿取。
(资料图)
8月初,在2025年世界机器人大会召开前夕,该公司同步发布新品——新一代具身轮式仿人形机器人“量子2号”。该机器人采用仿生拟人构型、轮式底盘设计和7自由度仿生机械臂,能精准覆盖0-2m立体作业空间,不仅能完美适配商业综合体及公共场所移动需求,还可实现多场景任务秒级切换,运动表现能与人类媲美。
(资料图)
这家公司便是自变量机器人(X Square Robot),其成立于2023年12月,核心团队汇聚全球顶尖AI与机器人领域专家,致力于推动具身智能与机器人技术创新与发展。据了解,截至目前,该公司已完成7轮融资,累计金额超过10亿元人民币,融资节奏与规模均属国内具身智能领域第一梯队。
创始人兼CEO王潜。在清华大学先后获得学士和硕士学位,硕士期间,他发表论文成为全球最早提出Attention机制的研究者之一,该研究后来成为Transformer架构的核心。硕士毕业后,他赴美深造,在美国南加州大学攻读博士学位,聚焦机器人学习与人机交互研究。怀揣着对机器人技术的热情,他在回国后创立了这家具身智能企业。
自研完全端到端统一VLA模型,消除机器人从感知到动作生成的巨大鸿沟
自变量自研的完全端到端统一视觉-语言-动作(VLA,Vision-Language-Action)模型WALL-A。可以实现机器人自主感知、决策与高精度操作,解决从感知到最后动作生成之间的巨大鸿沟。
它的核心突破,主要体现在三个方面。
第一,强大的泛化能力。模型在部分未见过的物理场景中,无需针对新场景进行额外训练,已经能部分实现零样本泛化。
其二,具身思维链(CoT,Chain of Thought)。模型通过多步逻辑推理,将抽象任务拆解为可执行的子步骤,并能够根据实时变化调整行动策略。
其三,统一架构。将视觉、语言、动作等所有模态信息,转换为统一的token序列,再送入一个Transformer核心,从而实现端到端统一学习。这能让系统在面对新任务时,可以像人类一样思考和工作,不再依赖模块化的信息传递。
(资料图)
目前,WALL-A模型已经能完成拉拉链、扣扣子等长序列复杂精细操作,并在展会前夕短短几天时间内学会香囊制作等长流程柔性物体处理,多机协作、跨任务切换及抗干扰场景。具体表现为:在简单任务中自主学习到了少量数据训练的动作模式;融合视觉、语言与动作实时进行推理规划;任务被打断或物体移位时,能依据环境修正动作以持续完成任务。
关于COT,必须指出的是,其在具身智能领域的应用与纯语言模型存在本质差异。如王潜所言,行业内多数声称采用COT的做法,其实是调用语言模型做high level的规划推理。
要想将COT真正引入具身世界,需要攻克两大核心难题。首先,多模态输入输出匹配。具身智能的COT需构建“输入-输出”闭环,即模型输出需能重新输入自身以形成思维链。
针对此,自变量机器人打造多模态理解生成一体化模型,突破常规VLA模型的局限,实现视觉、语言、动作等多模态的输入输出匹配,进而构建完整的思维链闭环。
“常规VLA模型输入的是视觉和语言,输出的是动作,但我们构建的长思维链,要求输出中包含语言和视觉。”王潜表示。
另外,还通过后训练方式,进一步提升模型对空间位置、任务的深入理解与规划能力,实现端到端的深度整合。
据王潜介绍,模型可输出完整思维序列与过程,除语言外,还能通过视觉、动作等多模态记录,且能根据人类提供的新信息重新思考,更贴近人类从思考到行动的逻辑;即便人类在交互中随时打断或干预,模型也能重新规划推理。
从模型能力看,现阶段难点仍聚焦于构建长思维链,需要进一步打通视觉、语言与行动的壁垒,实现机器人在行动中感知、感知中思考,融合物理反馈与行动思考过程,让思考结果及时转化为行动,以适应复杂的物理世界。
王潜解释道:“这需要融合物理与虚拟世界的思考、物理反馈与干涉动作,远比单纯多模态或语言模型中的CoT更复杂困难。”
可广泛应用在泛商业、康养、工业等场景,将助力未来机器人走入千家万户
“量子1号”在大会上重点展示的制作香囊任务引发关注。作为全场最难任务,该任务涵盖上下料、分拣、填充、贴标签等长序列流程,需处理柔性物体与高度不可控环境,且允许游客干扰以验证抗干扰与泛化能力。
该任务背后的核心技术能力体现在:模型仅需几天短训即能完成复杂任务;同一模型“一脑多用”,支持同步制作香囊、交互及自主移动上下料;清理垃圾、收纳脏衣服;多机器人协同补料;在物流和工业场景中的任务完成速度媲美人为操作;能判断人手状态、理解人类意图,实现精准避障与安全控制。
显然,“量子1号”能完成的任务已非常广泛。那么,自变量机器人又为何决定推出“量子2号”呢?
首先,解决负载问题。“量子2号”通过硬件升级,能应对高负载操作需求。
其次,拓展工作空间与操作范围。“量子2号”身高1.72米,再加上臂展长度,可触及0-2m的工作空间,且腰部采用折叠式设计,可实现类似人踮脚、弯腰等动作,能直接够到地面及高处,覆盖空间更全面。
另外,增强交互性与场景适配。“量子2号”配备交互屏,能提供更丰富的人机交互价值,更适配服务场景中的交互需求。
两款机器人均为轮式地盘构造。和传统双足机器人相比,它们的主要区别体现在结构复杂性、成本、安全性等方面。虽然后者更适应户外复杂地形,且因外形更接近人类,而更能满足人类对交互对象的情绪需求。但前者由于结构复杂度低,所以不管是成本还是安全性,都要比后者高,在室内场景下的表现更优。
基于此,从应用场景来看,自变量机器人可广泛应用于酒店、零售店等泛商业场景,养老机构等康养场景,以及工业和家庭场景。
据了解,目前该公司已与头部酒店、养老机构合作探索落地场景,包括清洁任务、基础服务等。
综上可以看出,自变量机器人既是一家基础模型公司,又是面向终端的产品公司。“我们期望未来机器人能走入千家万户,替代千行百业中需要人工完成的工作。”王潜表示。