当前位置：首页 » 资讯 » 新科技 » 正文

机器人也会整理衣柜了！北大董豪团队新研究杂乱衣物精准抓取难题

IP属地中国·北京 机器之心Pro 时间：2026-03-30 14:59:43

大家好，我是北大图灵班大一本科生李铭乐洋，本文将分享最新探索成果 GarmentPile++。这项工作由北大长聘副教授&上纬启元首席科学家董豪老师带领完成，刚刚被机器人领域顶会 ICRA 2026 接收。同时，在不久前《EAI-100 具身智能领域 2025 年度百项代表性成果与人物》中，"柔性物体仿真与操作"专题获得 10 大 Demo 项目奖，而 GarmentPile++ 是其重要的组成部分之一。
在现实环境中，衣物通常是杂乱堆放的，因此对衣物的智能检索成为必要。我们提出 GarmentPile++，相对前序工作 GarmentPile 更加高效，同时支持检索特定语言指令对应的衣物，为下游单衣物操作贡献了良好的上游基础。
衣物操控是家庭服务机器人的⼀项关键能力。然而，现实环境中的衣物通常是以杂乱的堆叠形式存在的。由于衣物的高度柔性、状态空间近乎无限的特性以及复杂的动力学属性，从杂乱堆叠中精准检索并抓取特定衣物成为⼀项有挑战的任务。
近期工作（如 GarmentPile）尝试解决这⼀问题。但现有的方法主要依赖单⼀的视觉可供性，缺乏对语言指令的理解能力，且⼤多局限于单臂操作，难以处理大型或长条状衣物。针对上述痛点，我们提出了 GarmentPile++。这是⼀个结合了视觉 - 语言模型（VLM）的高层推理能力，与视觉可供性模型的低层操作能力的全新管线。
该方法遵循语言指令检索特定衣物，并通过 SAM2 为 VLM 提供视觉线索，从而提升其性能。这⼀过程中，我们设计了通过掩码微调（Mask Fine-tuning）机制使 VLM 自主判定并修正 SAM2 可能的分割错误。另外，我们引入了由 VLM 触发的双臂协作机制以应对单臂难以处理的复杂情况，避免了单臂抓取长衣服时可能的拖地现象，为后续的折叠、挂衣等任务奠定基础。

论文：GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning论文链接：https://arxiv.org/abs/2603.04158

图 1 GarmentPile++ 概览。 GarmentPile++ 管线包含三个主要阶段：1) 检索哪个：利用 SAM2 提示 VLM 推理目标衣物；2) 哪⾥抓取：利用可供性模型预测衣物的最佳抓取点；3) 如何抓取：利用 VLM 对当前状态的判断，负责决策抓取流程，即包括是否启动双臂协作。
一、方法介绍
GarmentPile++ 的核心流程如图 2 所示，主要由三个模块组成：基于 SAM2 和 VLM 的分割与衣物选择、基于可供性的抓取点决策、以及基于状态感知的双臂协作决策。

图 2 GarmentPile++ 流程图。上方从左⾄右地展示三个模块，下方展示了部件细节。左下（红色）：掩码微调过程；右下（绿色）：双臂协作时的掩码跟踪过程。
1.视觉 - 语言引导的分割与选择 (Which to Retrieve)
该阶段的目标是从杂乱的衣物堆中，识别出符合语言指令的目标衣物。
①单图衣物分割：首先利用 SAM2 模型对场景进行全景分割。GarmentPile++ 会在每个生成的掩码（Mask）上标注数字 ID，以为 VLM 提供视觉线索，帮助 VLM 区分衣物。
②掩码微调：在衣物严重遮挡或颜色相近的情况下，SAM2 可能会出现分割错误（如将多件衣物分割为⼀个，或将⼀件衣物分割为若干碎片）。GarmentPile++ 提供了⼀种修正策略：VLM 首先判断当前的分割结果是否存在明显错误。若存在错误，则给出有明显错误的几个掩码的编号。机器人会从这些错误掩码中，随机选取⼀个点抓取，并在空中 “抖动” 衣物，同时录制视频。利用 SAM2 的视频跟踪能力，跟踪错误掩码之外的掩码，这样它们无需再次分割。而对剩余的场景利用 SAM2 再做⼀次分割，从而获得更精确的实例分割结果（如图 3）。
③基于 VLM 的选择：获得优化后的掩码后，VLM 根据用户的语言指令（如 “拿取所有衣物” 或 “拿取绿色上衣”）推理出最合适的目标衣物 ID。当目标特定衣物没有暴露在视野中时，VLM 会判断移除哪件衣服是 “最具性价比” 的（比如暴露面积大、造成遮挡多 .. ），并将其作为目标移除衣物。

图 3 掩码微调前后的分割效果对比。左侧为初始分割，存在欠分割或过分割问题；右侧为微调后的结果，掩码更准确地对应了单件衣物。
2.基于可供性的抓取点预测 (Where to Retrieve)
确定目标衣物后，需要计算适合单臂抓取的最佳位置。
检索可供性模型：基于 PointNet++ 架构，输入为衣物堆的点云以及目标衣物的掩码特征。
输出：一个逐点的可供性分数，指示每个点作为抓取点的适宜程度。通常，位于衣物中心或褶皱处的点具有较高的可供性分数，能最大化抓取成功率并减少对其他衣物的干扰。
3.基于状态感知的双臂协作 (How to Retrieve)
对于大型、长条状衣物，或者单臂抓取导致衣物拖拽严重的情况，仅靠单臂难以完成任务。
状态推理：当主臂（Master Arm）抓起衣物后，VLM 会根据当前的视觉观测判断是否需要双臂协作（例如判断衣物是否过长，或者是否意外抓起了两件衣物）。抓起衣物的过程中， GarmentPile++ 会利用 SAM2 跟踪被抓起的衣物，从而直接获得被抓起衣物的掩码，并为 VLM 提供视觉线索。
双臂协作执行：如果 VLM 判定抓起了多件衣物，当前操作终⽌。如果判定需要协作，辅助抓取点将根据被抓起衣物的掩码，在下垂部分选取。从臂（Slave Arm）由辅助抓取点进行抓取，随后双臂配合将衣物移动到目标位置。
二、实验结果
我们在仿真环境和真实世界中构建了两种典型场景：开放边界和封闭边界，并测试了 “顺序检索所有衣物” 和 “检索特定衣物” 两类任务。
1.对比实验
实验对比若干基线方法。结果显示（如表 1 所示），GarmentPile++ 在所有任务和场景中均取得了最高的平均成功率（ASR），同样保持了较低的平均抓取次数（AMS）。

表 1 对比实验结果
2.消融实验
通过消融实验，我们在平均成功率（ASR）和双臂触发概率（PDR）两个指标上，验证了各核心模块的必要性：
去掉双臂判定时的掩码追踪：会导致无法追踪已经由主臂提起来的衣物，从而误导 VLM 进行后续的双臂判定以及是否抓取单件衣服的判定。去掉双臂协作：在处理长衣物时失败率增加。去掉掩码微调：会导致分割不准，进而影响后续的抓取。去掉可供性模块：随机抓取导致初始抓取位置不优，进而导致了更⼤的双臂触发概率。

表 2 消融实验结果
三、展示视频
以下视频分别展示了：1) 封闭场景中的衣物顺序取出。 2）开放场景中的红色裤子取出。3) 开放场景中的衣物顺序取出。4）封闭场景中的帽子取出。

视频地址：https://mp.weixin.qq.com/s/y-vVRy11WQkYSJqegkHaIg?click_id=34
四、总结
本文提出了 GarmentPile++，一个针对杂乱衣物堆检索的通用管线，其由 SAM2 提示 VLM 推理做抓取指导，结合基于点云可供性的具体抓取点选取。我们的方法在开放场景 / 封闭场景中，特定衣物检索 / 顺序取出所有衣物下，性能和效率显著优于以往工作。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

招商银行首席信息官周天虹：大模型应用迭代周期已缩短至8天

AI无脑吹用户有多离谱？11个主流AI的“马屁排行榜”来了

聚焦“影视・游戏双引擎”，松江车墩搭建AI智娱产业对接平台

封面传媒科技牵头联合25家机构发布首个团体标准构筑泛内容传播新生态

宾理汽车被曝全面停摆，遭欠薪员工发布联名公开信

机械行业新能源智能网联汽车产教融合有哪些新动向？这场在松举行的研讨会有方向

全站最新

招商银行首席信息官周天虹：大模型应用迭代周期已缩短至8天

AI无脑吹用户有多离谱？11个主流AI的“马屁排行榜”来了

聚焦“影视・游戏双引擎”，松江车墩搭建AI智娱产业对接平台

封面传媒科技牵头联合25家机构发布首个团体标准构筑泛内容传播新生态

热门推荐

ClawBench：智谱、字节、小米共有4款模型跻身全球前十

广汽旗下因湃电池换帅，王科任因湃电池董事长

扭亏为盈，农业无人机极飞有何看点？

电动化“掉队”，斯柯达宣布将于2026年年内退出中国市场

李荣浩之怒

华润啤酒的“中场战事”：赵春武的旧船票，能否登上新周期的船？

2.1 吉瓦算力航母起航！微软接手得州 AI 工厂项目，与 OpenAI 搬进同一园区

《QQ经典农场》PC端正式上线数据与移动端互通

蚂蚁AI安全实验室发现OpenClaw多个高危漏洞并协助快速修复

国产模型爆发！豆包跻身全球第一梯队，小米 MiMo 数学推理获高分

中文大模型 SuperCLUE 测评：豆包跻身全球第一梯队

开发者警告：AI“氛围编程”涌现或拖慢苹果商店审核

企业微信 CLI 正式开源:开放七大核心能力，支持主流 AI Agent 直接调用

DeepSeek已恢复服务：此前公告服务出现重大中断

OPPO K15 Pro搭载新一代疾风散热引擎散热效率提升3倍