IT之家 1 月 22 日消息,微软昨日发布了一款面向机器人领域的全新 AI 模型 Rho-alpha,旨在突破机器人长期以来只能在高度可控环境中运行的局限,推动其在更复杂、不可预测的真实世界中执行任务。
![]()
该模型由微软研究院(Microsoft Research)开发,是微软首次基于 Phi 视觉-语言模型家族、专门面向机器人应用打造的系统。
![]()
从技术定位来看,Rho-alpha 被微软视为“物理 AI”战略的一部分。与主要运行在数字空间中的大语言模型不同,这一方向强调智能体能够直接与物理世界交互。
Rho-alpha 的核心能力在于,将自然语言指令直接转化为机器人控制信号,使机器人能够完成复杂的双手协同操作任务,而无需依赖传统工业机器人常见的固定脚本和预设流程。目前,微软正在双臂机器人平台和类人机器人上对该系统进行评估测试。
微软研究院企业副总裁兼总经理 Ashley Llorens 表示,相比语言和视觉 AI 的快速进展,机器人技术长期发展缓慢。随着感知、推理和行动能力的融合,机器人有望在非结构化环境中展现更高自主性,从而改变其与人类协作的方式。
在功能设计上,Rho-alpha 不仅属于视觉-语言-行动模型的范畴,还进一步引入了触觉感知能力。机器人在执行任务时,可根据触觉反馈实时调整动作,而不是仅依赖视觉信息。微软表示,未来版本还将加入力感知等更多传感模态,以提升操作精度和安全性。
![]()
适应性是 Rho-alpha 的另一项关键特征。模型在运行过程中可以动态调整行为,而非完全依赖预训练结果。当机器人出现操作失误时,人类操作者可通过 3D 输入设备等直观工具进行干预,系统会将这些纠正反馈纳入学习过程。IT之家注意到,微软同时还在研究部署后持续学习机制,使机器人能够逐步适应不同用户的偏好,从而在实际应用中更易被信任和接受。
![]()
在数据层面,微软也试图解决机器人领域长期存在的训练数据不足问题。单纯依靠人工遥操作采集示例,在复杂场景中成本高、效率低。
为此,Rho-alpha 采用了真实机器人演示、仿真任务以及大规模视觉问答数据相结合的训练方式。大量合成数据通过运行在 Azure 基础设施上的机器人仿真和强化学习流水线生成,再与商业及开放数据集中的真实机器人数据融合使用。
![]()
微软表示,Rho-alpha 将首先通过研究型早期访问计划向外部开放,后续还将提供更广泛的使用渠道。整体来看,Rho-alpha 是微软将先进 AI 能力从云端延伸到物理世界的重要一步,也反映出其希望为机器人厂商和系统集成商提供更高自主性和可定制化训练工具的长期方向。





京公网安备 11011402013531号