![]()
大家好,我是北大图灵班大一本科生李铭乐洋,本文将分享最新探索成果 GarmentPile++。这项工作由北大长聘副教授&上纬启元首席科学家董豪老师带领完成,刚刚被机器人领域顶会 ICRA 2026 接收。同时,在不久前《EAI-100 具身智能领域 2025 年度百项代表性成果与人物》中,"柔性物体仿真与操作"专题获得 10 大 Demo 项目奖,而 GarmentPile++ 是其重要的组成部分之一。
在现实环境中,衣物通常是杂乱堆放的,因此对衣物的智能检索成为必要。我们提出 GarmentPile++,相对前序工作 GarmentPile 更加高效,同时支持检索特定语言指令对应的衣物,为下游单衣物操作贡献了良好的上游基础。
衣物操控是家庭服务机器人的⼀项关键能力。然而,现实环境中的衣物通常是以杂乱的堆叠形式存在的。由于衣物的高度柔性、状态空间近乎无限的特性以及复杂的动力学属性,从杂乱堆叠中精准检索并抓取特定衣物成为⼀项有挑战的任务。
近期工作(如 GarmentPile)尝试解决这⼀问题。但现有的方法主要依赖单⼀的视觉可供性,缺乏对语言指令的理解能力,且⼤多局限于单臂操作,难以处理大型或长条状衣物。针对上述痛点,我们提出了 GarmentPile++。这是⼀个结合了视觉 - 语言模型(VLM)的高层推理能力,与视觉可供性模型的低层操作能力的全新管线。
该方法遵循语言指令检索特定衣物,并通过 SAM2 为 VLM 提供视觉线索,从而提升其性能。这⼀过程中,我们设计了通过掩码微调(Mask Fine-tuning)机制使 VLM 自主判定并修正 SAM2 可能的分割错误。另外,我们引入了由 VLM 触发的双臂协作机制以应对单臂难以处理的复杂情况,避免了单臂抓取长衣服时可能的拖地现象,为后续的折叠、挂衣等任务奠定基础。
![]()
论文:GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning论文链接:https://arxiv.org/abs/2603.04158
![]()
图 1 GarmentPile++ 概览。 GarmentPile++ 管线包含三个主要阶段:1) 检索哪个 :利用 SAM2 提示 VLM 推理目标衣物;2) 哪⾥抓取:利用可供性模型预测衣物的最佳抓取点;3) 如何抓取:利用 VLM 对当前状态的判断,负责决策抓取流程,即包括是否启动双臂协作。
一、方法介绍
GarmentPile++ 的核心流程如图 2 所示,主要由三个模块组成:基于 SAM2 和 VLM 的分割与衣物选择、基于可供性的抓取点决策、以及基于状态感知的双臂协作决策。
![]()
图 2 GarmentPile++ 流程图。 上方从左⾄右地展示三个模块,下方展示了部件细节。左下(红色):掩码微调过程;右下(绿色):双臂协作时的掩码跟踪过程。
1.视觉 - 语言引导的分割与选择 (Which to Retrieve)
该阶段的目标是从杂乱的衣物堆中,识别出符合语言指令的目标衣物。
①单图衣物分割:首先利用 SAM2 模型对场景进行全景分割。GarmentPile++ 会在每个生成的掩码(Mask)上标注数字 ID,以为 VLM 提供视觉线索,帮助 VLM 区分衣物。
②掩码微调:在衣物严重遮挡或颜色相近的情况下,SAM2 可能会出现分割错误(如将多件衣物分割为⼀个,或将⼀件衣物分割为若干碎片)。GarmentPile++ 提供了⼀种修正策略:VLM 首先判断当前的分割结果是否存在明显错误。若存在错误,则给出有明显错误的几个掩码的编号。机器人会从这些错误掩码中,随机选取⼀个点抓取,并在空中 “抖动” 衣物,同时录制视频。利用 SAM2 的视频跟踪能力,跟踪错误掩码之外的掩码,这样它们无需再次分割。而对剩余的场景利用 SAM2 再做⼀次分割,从而获得更精确的实例分割结果(如图 3)。
③基于 VLM 的选择:获得优化后的掩码后,VLM 根据用户的语言指令(如 “拿取所有衣物” 或 “拿取绿色上衣”)推理出最合适的目标衣物 ID。当目标特定衣物没有暴露在视野中时,VLM 会判断移除哪件衣服是 “最具性价比” 的(比如暴露面积大、造成遮挡多 .. ),并将其作为目标移除衣物。
![]()
图 3 掩码微调前后的分割效果对比。 左侧为初始分割,存在欠分割或过分割问题;右侧为微调后的结果,掩码更准确地对应了单件衣物。
2.基于可供性的抓取点预测 (Where to Retrieve)
确定目标衣物后,需要计算适合单臂抓取的最佳位置。
检索可供性模型:基于 PointNet++ 架构,输入为衣物堆的点云以及目标衣物的掩码特征。
输出:一个逐点的可供性分数,指示每个点作为抓取点的适宜程度。通常,位于衣物中心或褶皱处的点具有较高的可供性分数,能最大化抓取成功率并减少对其他衣物的干扰。
3.基于状态感知的双臂协作 (How to Retrieve)
对于大型、长条状衣物,或者单臂抓取导致衣物拖拽严重的情况,仅靠单臂难以完成任务。
状态推理:当主臂(Master Arm)抓起衣物后,VLM 会根据当前的视觉观测判断是否需要双臂协作(例如判断衣物是否过长,或者是否意外抓起了两件衣物)。抓起衣物的过程中, GarmentPile++ 会利用 SAM2 跟踪被抓起的衣物,从而直接获得被抓起衣物的掩码,并为 VLM 提供视觉线索。
双臂协作执行:如果 VLM 判定抓起了多件衣物,当前操作终⽌。如果判定需要协作,辅助抓取点将根据被抓起衣物的掩码,在下垂部分选取。从臂(Slave Arm)由辅助抓取点进行抓取,随后双臂配合将衣物移动到目标位置。
二、实验结果
我们在仿真环境和真实世界中构建了两种典型场景:开放边界和封闭边界,并测试了 “顺序检索所有衣物” 和 “检索特定衣物” 两类任务。
1.对比实验
实验对比若干基线方法。结果显示(如表 1 所示),GarmentPile++ 在所有任务和场景中均取得了最高的平均成功率(ASR),同样保持了较低的平均抓取次数(AMS)。
![]()
表 1 对比实验结果
2.消融实验
通过消融实验,我们在平均成功率(ASR)和双臂触发概率(PDR)两个指标上,验证了各核心模块的必要性:
去掉双臂判定时的掩码追踪:会导致无法追踪已经由主臂提起来的衣物,从而误导 VLM 进行后续的双臂判定以及是否抓取单件衣服的判定。去掉双臂协作:在处理长衣物时失败率增加。去掉掩码微调:会导致分割不准,进而影响后续的抓取。去掉可供性模块:随机抓取导致初始抓取位置不优,进而导致了更⼤的双臂触发概率。
![]()
表 2 消融实验结果
三、展示视频
以下视频分别展示了:1) 封闭场景中的衣物顺序取出。 2)开放场景中的红色裤子取出。3) 开放场景中的衣物顺序取出。4)封闭场景中的帽子取出。
![]()
视频地址:https://mp.weixin.qq.com/s/y-vVRy11WQkYSJqegkHaIg?click_id=34
四、总结
本文提出了 GarmentPile++,一个针对杂乱衣物堆检索的通用管线,其由 SAM2 提示 VLM 推理做抓取指导,结合基于点云可供性的具体抓取点选取。我们的方法在开放场景 / 封闭场景中,特定衣物检索 / 顺序取出所有衣物下,性能和效率显著优于以往工作。





京公网安备 11011402013531号