近日,上海交通大学杨佳澍和所在团队开发出一款名为 EyeVLA 的机器人眼球系统,让机器人拥有了真正的主动视觉。
假设你想让扫地机器人看看沙发下有没有玩具车,有了 EyeVLA 机器人就可以灵活地调整视角和焦距,不需要凑进去看,这种能力让机器人在许多实际任务中变得更加有用,比如可以在仓库里不需要移动位置找货、在工厂里检查零件,甚至帮助老人在杂乱的环境中找到需要的药品。
![]()
(https://arxiv.org/abs/2511.15279)
在一个测试里,杨佳澍等人让机器人辨认一下放在盒子里的笔的品牌。普通的固定摄像头根本无法拍摄到笔身的细节,而 EyeVLA 通过自动转动和放大,让笔身上的小字清晰可见,最终准确识别出了品牌。
类似的应用场景还有很多,比如可以帮你找钥匙和检查窗户是否关好,可以在工业流水线上识别细小的零件缺陷,可以协助药师在药店快速寻找目标药品等。
![]()
图 | 杨佳澍(杨佳澍)
无需人工引导或控制,只需给定指令即可自主完成观察
EyeVLA 搭载了一个精巧的系统,让机器人可以根据语言指令自主调整视角,这个系统主要由三部分组成:一个可以水平旋转、垂直俯仰的 2 维云台,一个可以变焦的摄像头,以及一个智能大脑,这个大脑是一个经过特殊训练的多模态大模型,能够同时理解图像、语言并生成具体动作。
机器人的每个动作,比如向左转 5 度、向上抬 3 度、放大 1.2 倍,都需要被转换成计算机能够理解的格式。杨佳澍等人设计了一种高效的动作编码方式,把连续的动作数值分层编码为基本的动作词,就像我们使用字母拼成单词一样。这样做的好处是,机器人可以使用更少的信息来表达更加精确的动作,同时有更强的语义性,便于模型学习。
当你对机器人说请看清楚那个蓝色盒子的标签时,EyeVLA 会首先分析这句话的含义,再结合当前摄像头拍到的画面,判断该如何调整视角。它会自动计算出需要转动多少角度、放大多少倍,才能让标签清晰地出现在画面中心。这个过程是实时、连续和闭环的,就像我们使用时鼠标拖动电子地图以及放大查看细节一样自然。
相关论文的第一作者杨佳澍告诉 DeepTech:“尽管近期有其他团队使用云台电机进行感知探索,但我们的系统在扩展性、可靠性及开放场景下的完全自主性方面具有明显优势。我们是首个在完全开放场景下基于变焦相机实现语言指令驱动视觉感知的系统,无需人工引导或控制,只需给定指令即可自主完成观察。”
![]()
(https://arxiv.org/abs/2511.15279)
小到找钥匙、大到医疗辅助均可使用
手动收集真机数据往往成本高昂,为了降低成本让机器人学会这套视觉动作,杨佳澍等人使用了包含两个阶段的训练方法。
第一个阶段是模仿学习,他们先是收集了少量真人操作机器的数据,记录下真人在不同指令下是如何调整视角的。接着,利用这些数据批量合成了模拟数据,让模型在虚拟数据中进行对齐,初步建立起语言、视觉、动作之间的关联。
第二个阶段是强化学习。这时,模型开始在真实数据中试错。每当做出一个动作,系统就会根据它是否看得清楚来给出奖励或惩罚。这样一来,就能在复杂场景中让机器人逐渐学会做出更鲁邦的视角调整。
当前,我们大都习惯了使用手机拍照:手机会自动对焦和调整亮度,拍摄出来清晰的照片。但是,传统的机器人视觉系统更像是一台固定在三脚架上的老式相机,它只能从一个角度、一个距离拍摄,既不能转动、也不能拉近拉远。
这就导致如果机器人要观察的目标很小、或者离得很远,它就很难看清楚。比如,想让机器人看看书架第二层那本书的书名,如果书名字体很小,普通的机器人摄像头可能只能拍摄出来一团模糊的像素,根本认不出来是什么字。
而该团队意识到,要让机器人真正地看懂世界,就不能让它被动地接收图像,而是让它主动地获取详细的信息,就像人类会转头、走近、眯起眼睛或瞪大眼睛观察事物一样。这就是主动视觉的核心思想,机器人也应该学会怎么去看,而不仅仅是看到了什么。
![]()
(https://arxiv.org/abs/2511.15279)
杨佳澍表示:“现有机器人往往在机械臂前端或者固定支架上安装固定摄像头,但由于机械臂体积和活动范围等限制,无法深入狭窄或危险区域观察目标细节(如文字、纹理)。我们的方法通过纯光学变焦调整,可在机械臂无法触及的场景中实现视觉感知,避免进入杂乱或危险环境,拓宽了机器人视觉的应用范围。”
参考资料:
相关论文 https://arxiv.org/abs/2511.15279
运营/排版:何晨龙





京公网安备 11011402013531号