当前位置: 首页 » 资讯 » 新科技 » 正文

突破模型瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

IP属地 中国·北京 机器之心Pro 时间:2025-11-26 16:15:38



视觉-语言-动作模型(VLA)在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型(VLM)动作生成能力,机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而,这类模型在应对长时序或精细操作任务时,仍然存在性能下降的现象。

这种现象的根源在于,模型虽具备语义理解能力,却缺乏对三维空间的几何感知与推理能力,导致其难以准确捕捉如机械臂夹爪与物体之间相对位置关系等关键三维信息。

为此,由中国科学院自动化研究所与灵宝 CASBOT 共同提出了QDepth-VLA—— 一种结合量化深度预测(Quantized Depth Prediction) 的 3D 信息增强型 VLA 模型。它通过独立的Depth Expert模块来学习离散化的深度表示。这种设计在保持原有语义对齐能力的同时,显著提升了机器人在复杂操作场景下的空间推理与操控精度。



论文标题:QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision–Language–Action Models论文链接:https://arxiv.org/pdf/2510.14836

研究背景

如何让模型具备真实三维空间理解能力,一直是视觉 - 语言 - 动作领域面临的关键挑战。尽管 VLA 模型在语义理解与指令跟随方面取得了显著进展,但其空间感知能力仍然有限。当任务涉及精细化或长时程多步骤操作时,模型往往难以建立稳定的三维几何关联,导致定位误差和操作失败。

为填补二维视觉语义理解与 3D 空间感知之间的鸿沟,研究者近年开始探索将三维信息融入 VLA 模型的多种路径。主流方向可分为三类:

1. 直接注入 3D 特征。这类方法通常将点云或深度图编码为三维特征,再与 VLM 主干网络或动作专家模块融合,从而显式引入几何信息。尽管能够提供更丰富的空间线索,但这种方式显著增加了模型复杂度,并可能破坏大规模 VLM 预训练中形成的二维视觉先验。

2.3D 特征投影方法。另一类方法将三维特征投影为多视角二维图像,再输入原有视觉 - 语言结构。该策略在最大程度上保持了 VLM 的视觉语言能力,但投影过程不可避免地造成信息损失,难以保留细粒度的空间几何特征。

3. 辅助 3D 视觉预测任务。相比直接融合 3D 特征,最新的趋势是通过引入辅助任务(如深度估计或未来场景预测)来隐式强化模型的三维空间理解。这种方式无需额外传感器输入,具有更好的兼容性与可扩展性,是一条更具潜力的研究路线。

然而,已有工作表明,这类基于深度预测的辅助监督并非总能带来性能提升。例如,DreamVLA 等研究发现,直接以像素级深度图作为辅助任务可能引入噪声监督或冗余信号,反而削弱模型的策略学习稳定性。因此,如何设计更高效、语义一致的深度监督机制,使 VLA 在保持二维视觉语义理解的同时获得稳健的三维感知能力,仍然是当前研究的核心难题。

方法设计

为解决深度预测辅助任务存在的监督噪声和信号冗余问题,中国科学院自动化研究所与灵宝 CASBOT 共同提出了QDepth-VLA,通过引入量化深度预测机制与混合注意力结构,使模型在保持语义一致性的同时,获得稳健的三维空间感知与动作决策能力。整体方法包括三部分 (如图):



1.深度图标注

首先采用 Video-Depth-Anything 对视频帧进行高精度深度标注,显著提升了时空一致性,从源头上减少了噪声和漂移。

2.深度量化与 Depth Expert

为了避免直接预测像素级深度图的噪声干扰,首先分别利用标注好的数据集分别训练对应的 VQ-VAE,之后使用 VQ-VAE 对深度图进行离散化编码,将其转化为结构化的深度 token。模型优化目标如下:





设计了独立的 Depth Expert 模块,其结构与 Action Expert 相似,均基于 Transformer 架构,用于预测深度 token,从而在不干扰视觉 - 语言主干的前提下提供稳定的几何感知信号。

3.混合注意力机制

为实现跨模态融合,减小深度模态可能存在的噪声干扰,团队还设计了Hybrid Attention Mask,在不同模态间调控信息流:

文本与图像 token 仅在各自模态内自注意,保持语义一致性;深度 token 同时关注图像与文本,获得语义上下文;动作 token 则融合前述所有模态,实现视觉 — 深度 — 动作一体化建模。

这种块状注意力设计有效防止深度噪声干扰动作生成,同时保持不同模态之间的对齐能力。

4.联合优化目标

整体训练目标整合动作与深度两类监督信号:





通过上述设计,QDepth-VLA 实现了视觉语义、空间几何与动作策略的协同学习,在多任务、多场景中展现出更强的泛化与稳定性。

实验验证

为全面评估 QDepth-VLA 的性能,团队在两个主流机器人仿真环境 (SimplerLIBERO) 与真实环境下进行了测试,涵盖多种物体抓取、空间定位与多步操作任务。结果显示,QDepth-VLA 在不同测试平台上均取得了显著提升。

这些结果验证了该方法能够有效提升模型在长时程、多场景操作任务中的任务完成能力。

1. Simpler 仿真结果

在 Simpler 任务中,分别基于 Bridge V2 与 Fractal 数据集从头训练了 QDepth-VLA。实验结果表明,在 Simpler 仿真器 的 WidowX250 与 Google Robot 任务上,相比基础模型 Open π0,平均成功率分别提升了8.5% 与 3.7%





2. LIBERO 仿真结果

而在 LIBERO 任务中,QDepth-VLA 则在 Fractal 数据集小规模预训练得到的权重基础上,进一步在对应的 LIBERO 数据集上进行微调。如下图所示,在 LIBERO 仿真器上,相较于基于深度图输入的 3D-CAVLA,QDepth-VLA 依然保持领先,平均提升约 2.8%。



3. 真机实验结果



Task1 : pick the banana into the yellow basketTask2 : put the chili into the bowlTask3 : put the green block into the bowlTask4 : stack the green block ontop of the yellow block



4. 消融实验

为了验证 QDepth-VLA 各组件的实际贡献,团队还在 Simpler 任务上进行了系统的消融实验。

当团队将深度损失权重设为 0,仅保留模型结构时,平均成功率由 68.5% 降至 65.6%,尤其在 Carrot(-9.6%)和 Eggplant(-12.5%)任务上下降明显,表明深度监督确实提供了有意义的空间几何先验。相反,移除 Depth Expert 后,性能下降最为显著(-8.5%),在需要精准三维对齐的 Stack Block 任务中跌幅高达 - 23.8%,验证了显式深度分支对立体空间感知的关键作用。

此外,将潜在深度预测替换为像素级回归导致平均性能下降至 64.6%,说明量化深度表征更能捕捉抽象几何信息。而移除混合注意力机制(Hybrid Attention)后,模型在 Carrot 任务中的表现显著下降(-15.8%),表明该机制能有效协调深度感知与动作生成。

总体来看,深度监督与混合注意力的协同作用是 QDepth-VLA 取得高性能的关键,它们共同强化了模型的空间理解与动作一致性,为复杂操控任务提供了稳定的三维感知基础。



总结与展望

QDepth-VLA 作为一种将量化深度预测引入视觉 - 语言 - 动作建模的机制,旨在增强机器人在三维空间中的感知与推理能力。基于 Simpler、LIBERO 以及真实环境的系统实验结果显示,引入量化深度监督能够在长程与精细操作任务中带来显著的成功率提升,说明三维几何先验在机器人稳定操控中具有重要价值。

未来的研究方向可主要围绕以下两点展开:

面向未来的深度预测:在当前深度推断基础上扩展至未来时刻的空间结构预测,以支持更长时程的策略规划;更高效的深度表征学习:通过改进 VAE 编码与表征压缩方式,进一步提升深度信息的精确度、可泛化性与推理稳定性。

总体来看,QDepth-VLA 为增强 VLA 模型的空间理解能力提供了一条兼具语义一致性与工程可落地性的路径。从具身智能的发展趋势来看,具备真实三维空间理解能力的策略模型,是机器人从 “可演示” 迈向 “可长期实际工作” 的关键基础。QDepth-VLA 强化的三维几何感知与动作一致性能力,将作为核心能力模块逐步融入灵宝 CASBOT 的多产品序列中:

CASBOT 02:用于支持桌面级与生活化任务中的稳定抓取、递交、精细放置;CASBOT W1:用于工业与商服场景下的多步骤、多对象柔性操作;Handle-L1 灵巧手:用于更高精度、多接触点的结构化操控与协作。

在此路径中,深度量化表征、跨模态一致性建模与在线自适应学习将持续协同演进,支撑灵宝 CASBOT 构建从模型 — 本体 — 场景 — 部署的长期闭环能力,推动具身智能走向可规模化、可复制、可持续的真实应用阶段。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。