当前位置: 首页 » 资讯 » 新科技 » 正文

微软发布首个机器人 VLA+ 模型,触觉进入核心架构

IP属地 中国·北京 编辑:顾青青 42号电波 时间:2026-01-23 02:08:09

当地时间 1 月 21 日,微软研究院正式发布了 Rho-alpha,这是微软首款专为机器人打造的 VLA+ 模型,基于微软 Phi 系列视觉语言模型构建。

Rho-alpha 旨在将日常自然语言指令实时转化为精确的机器人控制信号,让机器人能够执行双手协同等高度复杂的物理任务,摆脱传统机器人系统中依赖预设脚本、硬编码路径或繁琐中间规划的限制。

相较于标准 VLA 框架,Rho-alpha 除了融合视觉和语言理解,还引入了触觉感知作为关键模态,同时推进力反馈的融入。 官方称其扩展了 VLA 模型通常使用的感知和学习模式集,所以也可以称其为 VLA+ 模型。

这也让机器人在看懂、听懂的基础上具备摸懂的多模态能力,能够在动态变化的真实环境中进行实时调整。

目前,该模型已在配备触觉传感器的双臂 UR5e 机械臂平台以及人形机器人上进行评估。

聚焦多模态感知与端到端控制

在技术上,Rho‑alpha 的核心创新在于它的多模态感知和实时动作生成能力。

感知方面,常规的 VLA 模型主要依赖视觉和语言,而 Rho-alpha 特别强调触觉输入,让机器人摸着干活。

在具体的插头任务演示中,触觉传感器让 Rho-alpha 能接收到机器人与物体接触时得到的反馈信息,然后可以像人一样根据这些反馈调整姿势和力度。

触觉感知的融入,也可以让机器人在面对易碎、高精度和柔性物品时,提高一些执行任务的可靠性,这是常规的 VLA 模型在感知层面相对缺失的能力。

微软介绍道,未来 Rho-alpha 的版本还将加入力感知等更多传感模态,以提升操作精度和安全性。不过官方也提到,虽然扩展感知能力可以使 Rho-alpha 在操作过程中调整机器人的行动路线,但机器人仍然会犯难以恢复的错误。人类操作员可以使用 3D 鼠标等方式介入,让机器人回到正确的轨迹上,而后将这些加入学习的过程。

此外在实际执行任务时,Rho-alpha 可以将自然语言提示直接转化为低级控制动作。比如,用户提出「把托盘放进工具箱然后关上盖子」的指令,模型据此生成机器人动作。

这点则是延续了 Phi 系列模型在视觉和语言理解方面的优势,通过深度多模态编码器将图像信息与自然语言输入映射到统一表示空间。直接对应机器人动作参数,使得语言指令无需经过人工拆解,就能指导机器人执行抓取、装配等操作。

相比传统动作规划方法,Rho‑alpha 的优势是可以实现更自然、更灵活的任务执行,以此来适应不确定的真实环境。

同时,微软也在研究部署后持续学习的机制,让机器人终身学习,在落地中通过学习来适应不同用户的习惯,提升用户的信任感。

物理 AI 大势所趋

在物理 AI 被普遍视为人工智能下一阶段核心方向的背景下,全球主要的科技公司都纷纷向具身智能领域重点发力。而且从单纯的信息处理转向与现实世界交互,几乎已经成了大模型能力外延的必然选择。

所以 Rho-alpha 的发布,标志着微软正式将其在 AI 领域的长期积累,延伸到复杂的机器人系统中。

在机器人行业普遍受困于数据的情况下,微软也在试图用自身在 AI 上的积累来解决数据不足的问题,对此,Rho-alpha 结合了真机、仿真以及大规模视觉问答数据相结合的训练方式。

通过机器人仿真和强化学习流水线生成大量的合成数据,然后再跟商业及开放数据集中的真机数据结合使用。

总体来看,通过云端训练、仿真和持续学习,微软为机器人提供了一套可扩展、可复用的智能体系,使物理 AI 不再高度依赖定制化程序,从而具备跨平台迁移和持续进化的可能性。

不过目前 Rho-alpha 模型还未完全开放,微软会先将其通过研究型早期访问计划向外部开放,随后再开放更多的渠道供行业使用。

在非常需要消耗资金的机器人模型领域,科技大厂的进入无疑会加速提升机器人的自主能力。所以从长远角度看,微软进入机器人领域对于行业来说,或许只是个起点。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新