这项由成均馆大学(Sungkyunkwan University)计算机视觉实验室的文元俊(WonJun Moon)、成贤锡(Hyun Seok Seong)和许在弼(Jae-Pil Heo)教授团队完成的研究发表于2025年8月,论文题为"Selective Contrastive Learning for Weakly Supervised Affordance Grounding"。感兴趣的读者可以通过arXiv:2508.07877v1访问完整论文,研究代码已在GitHub上公开(github.com/hynnsk/SelectiveCL)。
当我们看到一把椅子时,大脑会自动告诉我们"这是用来坐的";看到一个杯子时,我们知道"这是用来喝水的"。这种理解物体功能的能力叫做"可供性",就像物体在向我们悄悄说话,告诉我们它们能做什么。现在,成均馆大学的研究团队正在教会机器这种看似简单却非常复杂的能力。
在现实生活中,我们从小就通过观察别人使用物品来学习这些知识。比如看到妈妈用刀切菜,我们就知道刀的"切"这个功能;看到爸爸坐在椅子上,我们就明白椅子是用来坐的。研究团队希望机器也能像人类一样,通过观看第三人称视角的互动场景(比如看别人使用物品的视频),然后在面对新物品时,能够准确识别出物品的哪个部分可以用来执行特定动作。
这个看似简单的任务实际上充满挑战。就像教一个从未见过自行车的孩子认识自行车一样,你不能只告诉他"这是自行车",还要让他知道哪里是坐的地方、哪里是握的地方、哪里是踩的地方。更困难的是,我们不能像老师一样指着每个部位详细解释,而是要让机器通过观察别人骑自行车的场景,自己推断出这些功能区域。
以往的方法就像一个过分专注于细节的学生,总是盯着物体最显眼的特征,比如看到自行车时只注意到轮子或车架这些明显的部分,却忽略了真正重要的功能部位如座椅或把手。这就像一个人学开车时只注意车的外形好不好看,却不知道方向盘和刹车在哪里一样。
为了解决这个问题,研究团队开发了一套名为"选择性对比学习"的新方法。这种方法就像培养一个善于观察的侦探,不仅能发现重要线索,还能区分哪些是有用信息,哪些是干扰信息。具体来说,这个方法包含两个互补的学习策略:原型对比学习和像素对比学习。
一、教会机器识别物体的核心功能区域
原型对比学习的工作原理就像教孩子通过对比来学习。当孩子看到妈妈用刀切菜的场景时,我们不仅要让他知道刀是用来切的,还要让他明白刀和勺子、筷子等其他厨具的区别,以及切菜和其他动作(如搅拌、盛汤)的区别。
在技术实现上,研究团队首先让机器观察第三人称视角的互动场景,比如有人正在使用某个物品的视频。机器需要从这些场景中识别出与动作相关的物品部位。然后,当机器面对一个单独的物品图像时,需要准确定位出可以执行该动作的部位。
这个过程的巧妙之处在于"选择性"策略。就像一个经验丰富的老师知道什么时候该详细解释、什么时候该概括说明一样,这个方法会根据当前能获得的信息质量来调整学习策略。当机器能够清晰识别出物品的功能部位时,就专注学习这些精确的部位特征;当识别不够清晰时,就退而求其次,先学会整体地识别相关物品,避免被背景信息干扰。
这种灵活的策略设计解决了以往方法的一个关键问题:传统方法往往因为过分追求精确性而错失学习机会。就像一个学生因为听不懂某个难点就完全放弃学习,而这种新方法更像一个聪明的学生,会根据自己当前的理解水平调整学习内容,确保始终在进步。
二、精细化像素级别的功能理解
如果说原型对比学习是在教机器理解"大概位置",那么像素对比学习就是在训练"精确定位"的能力。这就像教一个人使用筷子,不仅要让他知道大概握哪个位置,还要精确到每个手指应该放在什么地方。
像素对比学习的创新在于它能够处理第一人称视角的图像。当我们拿着一个物品时(比如举着相机准备拍照),这个视角下的物品往往更清晰、更突出,但同时也缺少了使用场景的上下文信息。研究团队巧妙地利用了这个特点:他们让机器通过对比第一人称视角(物品清晰可见)和第三人称视角(有使用场景但物品可能较小或被遮挡)的图像来学习。
这种对比学习的原理基于一个重要观察:在第一人称视角中,物品通常更大、更清晰,相应的功能部位也更容易被机器的视觉系统捕捉到。通过分析这种差异,机器可以学会在第一人称图像中识别出哪些像素点属于功能相关的区域。
整个像素级学习过程就像训练一个艺术家的眼睛。艺术家不仅要看到整体构图,还要注意到每一个细微的笔触和色彩变化。机器通过这种训练,能够将对物体功能的理解精确到像素级别,大大提高了最终定位的准确性。
三、利用视觉-语言模型增强物体识别
研究团队还巧妙地借助了CLIP这样的视觉-语言模型。CLIP就像一个博学的翻译官,能够理解图像内容和文字描述之间的对应关系。当你给它一张图片和几个文字描述时,它能告诉你哪个描述最符合图片内容。
在这项研究中,CLIP被用来生成"物体亲和度图"。简单来说,就是让机器标记出图像中哪些区域最可能包含与特定动作相关的物品。比如,当输入动作"握"时,CLIP会在图像中高亮显示可能用来握的物品区域。
这个过程就像给机器配备了一副"功能眼镜"。通过这副眼镜,机器看到的不再是普通的图像,而是带有功能标注的智能图像。这些标注帮助机器更好地理解哪些区域值得重点关注,哪些区域可能是无关的背景信息。
研究团队还对CLIP的使用方式进行了优化。他们采用了ClearCLIP的改进版本,这个版本在处理局部区域时表现更佳。同时,他们设计了不同的文字提示策略来处理不同视角的图像:对于第一人称视角的图像,使用"用来[动作]的物品"这样的描述;对于第三人称视角的图像,还额外加入了"人在使用物品"的描述,然后将两种描述的结果结合起来,获得更准确的物品定位。
四、智能化的部件发现算法
发现物品的功能部件是整个系统的关键环节,就像福尔摩斯破案时需要从众多线索中找出关键证据一样。研究团队为此开发了两套互补的部件发现策略,分别针对第三人称和第一人称视角的图像。
对于第三人称视角的图像,机器面临的挑战就像在观看一部电影时试图理解剧情细节:画面中的物品可能较小、角度不佳,甚至部分被人体遮挡。研究团队改进了现有的聚类算法,就像给侦探提供了更好的放大镜。他们首先利用机器学习模型找出图像中与互动相关的区域,然后运用K-means聚类算法将这些区域分成三类:背景、功能相关部位和其他部位。
这个分类过程的巧妙之处在于引入了"可靠性评估"机制。就像经验丰富的侦探会评估每条线索的可信度一样,系统会通过对比不同视角的信息来判断发现的部件是否真的对应于物品的功能区域。只有通过可靠性测试的部件才会被用于后续的学习过程。
对于第一人称视角的图像,机器面临的是另一种挑战:虽然物品清晰可见,但缺少使用场景的上下文信息。研究团队的解决方案颇具创意:他们利用了基础模型的一个特性——这些模型在处理清晰、突出的物品时响应更强烈。通过比较第一人称和第三人称视角中机器对同一物品的响应差异,系统可以推断出第一人称图像中哪些区域最可能对应功能部位。
这种方法就像通过对比照片的清晰度来判断拍摄距离一样直观。当某个物品在第一人称视角中引起强烈响应,而在第三人称视角中响应较弱时,这种差异本身就提供了有价值的信息,帮助系统定位功能相关的像素区域。
五、实验结果展现显著性能提升
研究团队在两个主要数据集上测试了他们的方法:AGD20K和HICO-IIF。这就像在两个不同的考场测试学生的能力,确保方法的普适性和可靠性。
在AGD20K数据集上,该方法在已见场景中将KLD指标(数值越低越好)从之前最佳的1.176降低到1.124,在未见场景中从1.335降低到1.243。这些数字背后的意义就像考试成绩的提升:系统在理解物品功能方面变得更加准确和可靠。
更令人印象深刻的是在处理未见过的物品类别时的表现。这就像学生面对从未见过的题型仍能保持优秀成绩一样,展现了真正的理解能力而不是单纯的记忆。在这种挑战性测试中,新方法显示出了显著的优势,这对于实际应用具有重要意义——毕竟在现实世界中,我们经常会遇到新的物品和使用场景。
研究团队还通过详细的消融实验(就像拆解机器检查每个零件的作用一样)验证了各个组件的贡献。结果显示,原型对比学习、像素对比学习和校准过程都对最终性能有积极贡献,证明了设计的合理性。
从定性结果来看,新方法在定位功能部位时显示出了更高的精确度。比如在识别自行车的"骑"这个功能时,以往的方法可能会错误地突出显示车轮或车架等显眼但非功能性的部位,而新方法能够更准确地定位到座椅和把手等真正与骑行动作相关的区域。
六、方法的创新价值和技术突破
这项研究的核心创新在于"选择性"策略的设计。就像一个善于变通的老师会根据学生的理解程度调整教学方法一样,这个系统能够根据当前可获得信息的质量来动态调整学习策略。
传统方法往往采用"一刀切"的策略:要么追求高精度的部件识别,要么完全依赖粗粒度的分类信息。这就像一个严格的老师要求所有学生都必须达到相同的标准,结果可能导致一些学生跟不上而放弃学习。新方法的灵活性确保了系统能够始终从可用信息中学到有价值的内容。
另一个重要创新是将原型级和像素级的对比学习有机结合。这种多尺度的学习策略就像培养一个艺术家既要有宏观的构图能力,又要有细致的描绘技巧。原型级学习帮助系统理解整体的功能区域分布,像素级学习则确保了精确的边界定位。
技术架构的设计也体现了研究团队的深度思考。他们巧妙地利用了现有基础模型(如DINO和CLIP)的优势,而不是从零开始构建全新的系统。这种"站在巨人肩膀上"的方法不仅提高了效率,还确保了方法的实用性和可复现性。
研究还引入了一种新的校准机制,通过结合物体亲和度图来优化最终的功能区域定位。这就像给照片加上了一个智能滤镜,能够自动移除噪声并增强关键信息的显示效果。
七、实际应用前景和社会意义
这项研究的应用前景极其广阔,几乎可以说将改变我们与智能系统交互的方式。在机器人领域,具备可供性理解能力的机器人将能够更自然地融入人类环境。比如家庭服务机器人看到餐桌上的杯子时,不仅知道这是一个杯子,还知道应该握住把手部分来移动它,应该从杯口倒水进去。
在自动驾驶领域,这种技术可以帮助车辆更好地理解道路环境中各种物体的功能属性。比如识别出路边的长椅是供人休息的(不是障碍物),垃圾桶是固定放置的(可能需要避让),交通标志是提供信息的(需要识别内容)等等。
对于增强现实和虚拟现实应用,可供性理解能够让数字系统提供更智能的交互提示。当用户戴着AR眼镜看到一个复杂的机器设备时,系统可以自动标识出各个操作部位,提供直观的使用指导。
在辅助技术领域,这项研究对视觉障碍人群具有特殊意义。智能导航设备可以通过语音描述告诉用户"前方三步有一把可以坐的椅子"、"右手边有一个可以推的门"等具体的功能信息,而不是简单的物体名称。
电商和在线购物平台也可以从中受益。通过分析商品图片,系统可以自动提取功能相关的特征,为用户提供更精准的搜索和推荐服务。比如用户搜索"适合办公的椅子"时,系统不仅会匹配"椅子"这个类别,还会重点关注座椅、靠背、扶手等功能部位的特征。
八、技术实现的深层原理
从技术实现的角度来看,这项研究展现了多个深层的机器学习原理。对比学习的核心思想是让机器通过比较来学习差异和相似性,就像人类通过对比不同事物来理解概念一样。研究团队将这个原理扩展到了可供性学习领域,设计了新颖的正负样本构造策略。
在原型对比学习中,系统会构造多种类型的原型:正面原型代表功能相关的区域,负面原型包括背景区域和其他动作类别的功能区域。这种设计确保了机器不仅能识别目标功能,还能将其与其他功能区分开来。就像教孩子认识苹果时,不仅要告诉他苹果长什么样,还要让他知道苹果和橘子、梨的区别。
像素级对比学习则更加精细化,它在图像的每个像素点上进行判断:这个像素属于功能区域吗?通过让功能相关的像素彼此"吸引",功能无关的像素相互"排斥",系统逐渐学会了精确的功能区域边界。
损失函数的设计体现了研究团队的精心考虑。他们使用了分层的学习目标:分类损失确保系统理解基本的动作类别,原型对比损失促进区域级的功能理解,像素对比损失实现精确的边界定位。这种多目标优化就像培养一个全才学生,既要有扎实的基础知识,又要有专业技能,还要有精细的执行能力。
温度参数和阈值的调节机制也很巧妙。温度参数控制着对比学习的"严格程度":温度高时学习较为宽松,温度低时要求更精确的匹配。各种阈值参数则像是系统的"判断标准",决定什么时候使用部件级信息,什么时候退回到物体级信息。
九、与现有方法的深度对比
相比于现有的弱监督可供性定位方法,这项研究在多个维度上实现了突破。传统的知识蒸馏方法就像一个严格的老师,只在学生完全理解时才进行教学,而新方法更像一个耐心的导师,总能找到合适的教学内容。
以LOCATE方法为例,它只在能够可靠识别功能部件时才进行学习,这导致学习机会的大量浪费。就像一个学生因为某道难题不会做就放弃整个章节的学习一样。新方法通过引入对象级学习作为备选方案,确保系统始终在学习有用的信息。
相对于那些依赖大型语言模型的最新方法,这项研究展现了"少而精"的优势。虽然没有使用GPT-4或其他大规模模型,但通过精心设计的学习策略和巧妙的信息融合,实现了更好的性能。这就像一个技巧娴熟的厨师用简单的食材做出美味佳肴,证明了方法设计的重要性超过了模型规模。
在处理未见物体类别时的优势特别明显。这种泛化能力的提升归功于对比学习的本质:它学习的是功能区域与非功能区域之间的关系,而不是特定物体的外观特征。就像学会了游泳的人可以在不同的水域游泳一样,掌握了功能理解原理的系统可以处理各种新的物体。
实验结果也证实了这种设计理念的正确性。在定性比较中可以看到,其他方法经常被物体的显眼特征"误导"——比如在识别自行车的"骑"功能时错误地关注车轮,在识别杯子的"喝"功能时关注杯身的图案。新方法则能够更准确地定位到真正的功能区域。
十、研究的局限性和未来发展方向
尽管这项研究取得了显著成果,但研究团队也诚实地承认了一些局限性。当前方法主要处理的是相对简单的人-物交互场景,对于复杂的多步骤操作或多人协作场景还有改进空间。就像学会了基础数学的学生需要进一步学习高等数学一样,这个系统也需要在更复杂的场景中得到进一步训练和优化。
数据集的规模和多样性也是一个考虑因素。虽然AGD20K和HICO-IIF已经是该领域的标准数据集,但相比于其他计算机视觉任务的大规模数据集,可供性理解的训练数据仍然相对有限。这就像让学生只看少量例题就要掌握整个学科一样具有挑战性。
计算效率方面也有优化空间。当前方法需要处理多种类型的对比学习和复杂的特征融合,这在实际部署时可能带来计算负担。未来的研究可能需要在保持性能的同时提高计算效率,就像工程师需要让汽车既快又省油一样。
跨模态信息的融合还可以进一步深化。虽然现在已经结合了视觉和文本信息,但声音、触觉等其他模态的信息也可能对可供性理解有所帮助。比如刀具切割时的声音、材料的质地等都可能提供额外的功能线索。
实时性能也是实际应用中的重要考虑因素。当前方法主要在离线环境中测试,但在机器人或自动驾驶等实时应用中,系统需要在毫秒级别内做出判断。这就像要求学生不仅要会做题,还要做得足够快一样。
说到底,这项由成均馆大学团队完成的研究代表了机器智能向人类智能迈进的重要一步。通过让机器学会理解物体的功能属性,我们正在构建更智能、更自然的人机交互方式。这不仅仅是技术的进步,更是对人类认知过程深度理解的体现。
归根结底,这项研究最令人兴奋的地方在于它的实用性和普适性。不像那些只存在于实验室中的研究,可供性理解技术有着明确的应用前景和社会价值。从帮助机器人更好地服务人类,到让AI系统更好地理解我们的世界,这种技术将在未来的智能社会中发挥重要作用。
研究团队通过巧妙的技术设计和严谨的实验验证,证明了选择性对比学习方法的有效性。更重要的是,他们为这个领域提供了新的思路:不是简单地追求更大的模型或更多的数据,而是通过深入理解问题本质来设计更智能的解决方案。这种研究理念值得整个人工智能领域学习和借鉴。
有兴趣深入了解技术细节的读者可以访问论文的完整版本,研究团队也慷慨地公开了实现代码,为后续研究提供了坚实的基础。这种开放的研究态度体现了科学精神,也为推动整个领域的发展做出了贡献。
Q&A
Q1:选择性对比学习是什么?它是如何工作的?
A:选择性对比学习是成均馆大学团队开发的一种新方法,让机器像人类一样通过观察学习物体功能。它包含两个核心策略:原型对比学习和像素对比学习。就像培养一个善于观察的侦探,这个方法能根据信息质量动态调整学习策略——当能清晰识别功能部位时就精确学习,识别不清时就先学习整体物体,避免被背景干扰。
Q2:这项技术在实际生活中有什么用处?
A:应用前景非常广泛。家庭服务机器人可以学会正确抓取物品的功能部位,自动驾驶汽车能更好理解路边物体的用途,AR眼镜可以智能标识设备的操作部位,辅助技术能为视觉障碍人群提供更详细的环境描述。简单说,这让机器真正"懂得"物品该怎么用,而不只是识别物品名称。
Q3:为什么说这种方法比以往技术更先进?
A:传统方法就像严格的老师,只在完全理解时才学习,经常错失学习机会。而新方法像耐心的导师,总能找到合适的教学内容。它不仅能识别功能部位,还能区分不同动作和背景信息。更重要的是,在面对从未见过的物品时仍能保持优秀表现,这说明它学到的是真正的功能理解原理,而不是简单记忆。