![]()
这项由香港科技大学张紫欣、陈康浩等研究团队领导的突破性研究发表于2025年10月,论文编号为arXiv:2510.09507v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。
想象一下这样一个场景:你正在厨房里准备做一道复杂的菜,突然发现缺少某个关键工具。一个聪明的助手会怎么做?是束手无策地说"抱歉,没有专门的工具我无法帮助您",还是机智地环顾四周,找到替代品来完成任务?这个看似简单的场景实际上触及了人工智能发展的一个核心问题:我们的AI助手真的理解物理工具吗?
在当今这个AI技术突飞猛进的时代,我们已经看到了能够生成精美图像、撰写流畅文章,甚至进行复杂对话的多模态大语言模型(MLLM)。这些模型就像是拥有渊博知识的学者,能够回答各种问题,处理图像和文本信息。然而,当涉及到真正的物理世界互动时,特别是使用工具完成实际任务时,这些看似聪明的AI系统是否真的具备了人类那样的理解能力?
正是带着这样的疑问,香港科技大学的研究团队开发了PhysToolBench这个全新的评估基准。这就好比是为AI系统设计的一套"动手能力考试",专门测试它们对物理工具的理解程度。研究团队发现了一个令人意外的事实:即使是目前最先进的AI模型,在这项测试中的表现也远远不如人类。
这项研究的重要性不仅仅在于揭示了当前AI技术的不足,更在于为未来的机器人和智能助手的发展指明了方向。毕竟,如果我们希望AI真正成为我们日常生活中的得力助手,它们就必须像人类一样理解和使用各种工具。
PhysToolBench包含了超过1000个精心设计的图像-文本对,涵盖了从日常生活到专业工作的各种场景。研究团队设计了三个难度级别的测试,就像驾照考试分为理论考试、路考和高级驾驶技能测试一样。每个级别都在检验AI系统不同层面的工具理解能力。
第一层是基础的工具识别能力,相当于问"这是什么工具,它的主要用途是什么"。第二层深入到工具的使用原理和组合应用,比如"在特定条件下应该选择哪种工具"或者"完成这个任务需要哪几种工具配合"。第三层则是最具挑战性的创造性使用,当标准工具不可用时,如何利用现有物品创造替代工具。
研究团队测试了32个不同的AI模型,包括GPT-5、Claude等顶尖的商业模型,以及各种开源模型和专门为机器人设计的模型。结果令人深思:即使是表现最好的模型,得分也仅有63%左右,而人类的平均得分超过90%。这个巨大的差距揭示了当前AI技术在理解物理世界方面的根本局限性。
更有趣的是,研究团队发现了几个关键问题。首先,小型AI模型在工具理解方面表现极差,这意味着目前嵌入在机器人中的AI"大脑"可能还不够聪明。其次,即使是大型模型也经常在识别相似工具时出错,特别是在区分各种数字产品时表现糟糕。第三,许多模型会"幻想"工具的可用性,即使工具已经损坏也会盲目推荐使用。
为了解决这些问题,研究团队还提出了一种名为"视觉中心推理"的改进方法。这种方法就像教导AI"仔细观察每个细节",通过更细致的视觉分析来改善其工具理解能力。初步测试显示,这种方法能够显著提升AI的表现。
一、基础能力测试:AI能认识工具吗?
PhysToolBench的第一层测试就像是给AI做一个基础的"工具识别考试"。研究团队会给AI展示一张包含多种物品的图片,然后问它:"我需要完成某个特定任务,应该使用哪个工具?"
这听起来似乎很简单,就像问一个人"我要切菜,应该用哪把刀"一样直接。但实际上,这个测试揭示了AI理解工具功能的基本能力。比如,当研究团队展示一张厨房场景的图片,里面有各种刀具、锅具和餐具,然后问"我需要炖牛尾汤三小时,应该选择哪个锅"时,一个真正理解工具的AI应该能够识别出需要使用带盖的大锅,而不是平底锅或其他容器。
研究结果显示,大多数AI模型在这个基础层面上表现还算不错,特别是那些参数量超过100亿的大型模型,准确率通常能达到60-70%。这就好比一个刚学会做饭的新手,虽然不是专家,但基本的工具选择还是能够应付的。
然而,当涉及到一些不那么常见的工具时,AI的表现就开始下滑。研究团队发现,AI对于专业工具或者不太常见的器具往往会出现误判。比如,在区分不同类型的扳手、钳子或者专业医疗器械时,即使是顶尖的AI模型也会犯错。
更令人担忧的是,小型AI模型(参数量少于50亿)在这个基础测试中的表现极差,准确率往往低于50%。这意味着目前许多嵌入在实际机器人或设备中的AI系统,可能连最基本的工具识别都做不好。这就像让一个对厨房工具完全陌生的人来帮你做饭一样,结果可想而知。
特别值得注意的是,AI模型在处理数字产品时表现尤其糟糕。当面对各种看起来相似的电缆、充电器或者电子接口时,即使是最先进的模型也经常会搞混。研究团队测试发现,许多AI无法准确区分HDMI线和DP线,或者混淆Type-C接口和Lightning接口。这种错误在现实生活中可能会造成设备损坏或者无法正常工作。
二、深度理解测试:AI真的懂工具的工作原理吗?
当AI通过了基础的工具识别测试后,研究团队设计了更加复杂的第二层测试,专门检验AI是否真正理解工具的工作原理和使用条件。这就像是从"认识工具"升级到"会用工具"的考试。
在这个层面,研究团队设计了三种不同类型的挑战。第一种是属性理解测试,要求AI根据特定的使用条件选择最合适的工具。比如,当任务是"在300度高温下煎牛排"时,AI需要理解不同材质的锅具在高温下的表现差异,从而选择铸铁锅而不是普通的不粘锅。这不仅仅是识别工具,更是理解工具的物理特性和适用条件。
第二种是工具组合测试,检验AI是否能够理解某些任务需要多个工具配合完成。就像组装家具需要螺丝刀、扳手和测量工具一样,许多现实任务都需要工具的协同工作。比如,"给手机充电"这个看似简单的任务,可能需要充电器、数据线,有时还需要转接器。AI需要理解这些工具之间的关系和组合方式。
第三种也是最具挑战性的可用性判断测试。研究团队故意在图片中放置一些损坏或无法正常工作的工具,然后观察AI是否能够识别出这些"陷阱"。这就像在工具箱里放一把断了柄的锤子,看AI是否还会推荐使用它来敲钉子。
测试结果令人深思。即使是表现最好的AI模型,在这个层面的准确率也大幅下降。特别是在可用性判断测试中,几乎所有的AI模型都表现糟糕,有些甚至比随机选择的结果还要差。这揭示了一个令人担忧的问题:当前的AI模型更多的是在进行表面的模式匹配,而不是真正理解工具的本质功能。
比如,在一个测试案例中,图片显示的是一个破损的马桶疏通器,橡胶杯部分已经开裂无法形成密封。然而,大多数AI模型仍然会推荐使用这个工具来疏通马桶,完全忽视了它已经无法正常工作的事实。这种"盲目推荐"在现实应用中可能会导致严重的后果。
研究团队还发现,AI模型经常会被工具的外观所迷惑,而忽视其实际功能状态。这就好比一个人看到一辆外观完好的汽车就认为它能正常行驶,却没有注意到发动机已经坏了。这种表面化的理解方式暴露了当前AI技术在物理世界理解方面的根本缺陷。
更令人意外的是,专门为机器人应用而训练的AI模型在这些测试中的表现并不比通用模型好多少。这意味着简单地在机器人数据上进行训练并不能自动获得更好的工具理解能力,可能需要更加针对性的训练方法和数据。
三、创造性应用测试:当没有合适工具时AI会怎么做?
PhysToolBench的最高难度测试模拟了一个我们在日常生活中经常遇到的情况:当标准工具不可用时,如何创造性地利用现有物品来完成任务。这就像是"荒岛求生"式的工具使用考验,真正检验了AI的创造性思维能力。
在这个测试中,研究团队会给出一个需要完成的任务,但在提供的物品中故意不包含专门用于该任务的标准工具。然后观察AI是否能够想出替代方案。比如,任务是"拧紧一个平头螺丝",但图片中没有螺丝刀,只有各种日常物品如硬币、钥匙、刀具等。一个聪明的AI应该能够意识到硬币的边缘可以插入螺丝槽中,起到螺丝刀的作用。
这种创造性工具使用能力是人类智能的一个显著特征,也是真正的通用人工智能必须具备的能力。当我们在野外露营时用石头当锤子,用树枝当撬棒,或者在厨房里用勺子背面压蒜泥时,我们展现的正是这种灵活的工具理解和创新应用能力。
然而,测试结果显示,绝大多数AI模型在这个层面的表现都很差。它们似乎被困在了"标准工具标准用法"的思维模式中,无法跳出既定框架进行创造性思考。当没有专门的工具时,大多数AI会简单地回答"无法完成任务"或者"没有合适的工具",而不是尝试寻找替代方案。
有趣的是,研究团队发现AI在这个测试中的表现甚至比中等难度的测试还要好一些。这个看似矛盾的结果实际上揭示了AI思维的一个特点:它们在进行"是否有合适工具"的判断时,反而比评估"工具是否损坏"更加谨慎。这就好比一个过分小心的助手,在没有专门工具时会老实地说"我做不了",但在面对损坏工具时却可能盲目地说"可以用"。
研究团队还测试了一些更加复杂的创造性应用场景。比如,在没有专门武器的情况下"制作自卫工具",或者在野外"制作捕猎工具"。这些测试不仅检验AI的工具创造能力,还涉及到对物理原理的理解,比如如何利用重力、杠杆原理或者材料特性来实现特定功能。
结果显示,即使是最先进的AI模型也很少能够提出真正有效的创造性解决方案。它们往往缺乏对物理原理的深层理解,无法将抽象的物理知识应用到具体的工具创造中。这就像是一个只会背诵物理公式但不会实际应用的学生,知识和实践之间存在巨大的鸿沟。
四、测试结果分析:AI的"工具盲区"在哪里?
通过对32个不同AI模型的全面测试,研究团队发现了当前AI技术在工具理解方面的几个关键问题,这些发现就像给AI做了一次全面的"体检",揭示了它们的健康状况和需要改进的地方。
首先,模型规模确实很重要,这就像人的大脑容量会影响学习能力一样。研究团队发现,只有当AI模型的参数量超过100亿时,它们才开始表现出基本的工具理解能力。那些参数量较小的模型,特别是目前嵌入在机器人系统中作为"大脑"的小型模型,在工具理解测试中的表现极其糟糕,总体得分往往低于15%。这就好比让一个刚学会说话的孩子去操作复杂的机械设备,结果可想而知。
其次,AI存在严重的"长尾问题"。就像人类对常见物品很熟悉,但对罕见物品可能一无所知一样,AI模型对于常见工具的识别相对较好,但一旦遇到不常见或专业性较强的工具,就会出现明显的认知偏差。特别是在数字产品领域,即使是最先进的模型也经常会混淆外观相似但功能不同的设备,比如把HDMI线当成DP线,或者搞错各种充电接口。
第三个令人担忧的发现是AI的"幻觉问题"。当研究团队故意在测试中放置损坏的工具时,大多数AI模型都会"视而不见",仍然推荐使用这些已经无法正常工作的工具。这就好比一个人明明看到锤子的柄已经断了,却仍然坚持说它能用来敲钉子。这种现象表明,AI更多的是在进行表面的图像识别,而不是真正理解工具的功能状态。
研究团队还发现了一个有趣的现象:专门为机器人应用而训练的AI模型并没有在工具理解方面表现出明显优势。比如RoboBrain-2和Embodied-R1这些专门的机器人AI,在测试中的表现甚至略逊于它们的通用版本。这个结果说明,简单地在机器人数据上进行训练并不能自动提升工具理解能力,可能需要更加针对性的训练策略。
另一个重要发现是推理能力的重要性。当研究团队给AI模型增加了"链式思考"提示,要求它们在给出答案前先分析问题时,模型的表现有了显著提升。那些本身就擅长推理的模型,比如GLM-4.5V和Ovis-2.5-9B,即使参数量相对较小,也能取得不错的成绩。这就好比一个善于思考的人,即使知识量不如博士,但在解决实际问题时可能表现更好。
最令人意外的是,AI在最难的创造性应用测试中的表现,有时竟然比中等难度的工具可用性判断测试要好。这个看似矛盾的结果实际上揭示了AI思维的特点:它们在面对明显没有标准工具的情况时会变得谨慎,但在判断工具是否损坏时却可能过于自信。这就像一个过分老实的助手,在没有工具时会说"我做不了",但面对坏工具时却可能说"应该还能用"。
五、改进方案:让AI更好地"看"工具
面对AI在工具理解方面的种种不足,研究团队并没有止步于发现问题,而是积极探索解决方案。他们提出了一种名为"视觉中心推理"的改进方法,这种方法的核心思想就是教会AI更仔细、更系统地观察和分析图像中的工具。
传统的AI处理方式就像一个匆忙的人快速扫一眼就下结论,往往会遗漏重要细节。而视觉中心推理就像是训练一个专业的侦探,教它按照系统化的步骤来观察和分析现场。这个方法分为三个步骤,就像侦探破案的标准流程一样。
第一步是全局分析阶段。AI首先需要对整个场景进行整体把握,理解用户的任务需求和可用物品的总体情况。这就像侦探刚到案发现场时,首先要观察整体环境,了解大致情况,而不是立刻关注某个具体细节。
第二步是细节检查阶段。这是这个方法的核心创新,AI会使用专门的物体检测工具,像放大镜一样仔细检查图片中的每个物品。它会将每个物品单独"取出"进行详细分析,检查工具的状态、材质、尺寸等关键属性。这就好比侦探用放大镜仔细检查每一件证据,不放过任何细节。
第三步是综合推理阶段。AI将前两步获得的全局信息和细节信息进行整合,运用逻辑推理来得出最终结论。这就像侦探将所有线索串联起来,得出案件的真相。
研究团队在最困难的工具可用性判断测试中验证了这种方法的效果,结果令人鼓舞。使用GPT-4o作为基础模型时,视觉中心推理方法将准确率从35.54%提升到了45.78%,提升幅度超过10个百分点。当使用更先进的GPT-5时,提升幅度更是达到了18.06%,从36.75%跃升至54.81%。
这种改进方法的成功证明了一个重要观点:当前AI模型的问题不仅仅在于知识不足,更在于观察和推理方式的缺陷。它们往往过于依赖语言层面的推理,而忽视了视觉信息的重要性。这就好比一个人闭着眼睛凭感觉修理机器,即使理论知识再丰富,也很难成功。
研究团队强调,虽然这种改进方法在理念上并不复杂,也与一些同期研究有相似之处,但它在机器人和智能助手应用中的潜力是巨大的。通过更加细致的视觉分析,AI可以避免许多低级错误,比如推荐使用损坏的工具或者错误识别物品功能。
不过,研究团队也坦承,这种方法目前还只是一个初步解决方案。要真正让AI具备人类水平的工具理解能力,还需要更多的技术突破和创新。比如,如何让AI理解更复杂的物理原理,如何提升它们的创造性思维能力,如何处理更加复杂和多变的现实场景等等。
六、对未来的展望:AI助手何时能真正"心灵手巧"?
PhysToolBench的研究结果不仅揭示了当前AI技术的局限性,更为未来智能系统的发展指明了方向。就像一张详细的"体检报告"不仅诊断了问题,还为治疗方案提供了指导一样,这项研究为AI领域的发展提供了宝贵的洞察。
研究团队认为,要让AI真正具备实用的工具理解能力,需要在多个方面实现突破。首先是模型规模的问题。目前的研究清楚地表明,只有足够大的模型才能展现出基本的工具理解能力。这意味着未来的机器人和智能助手可能需要更强大的计算能力来支撑更大的AI模型。
其次是训练数据的质量和多样性问题。当前的AI模型在处理常见工具时表现尚可,但在面对专业工具或不常见物品时就会出错。这说明训练数据中可能缺乏足够多样化的工具使用场景,特别是那些涉及专业领域或创造性应用的案例。
第三是推理能力的提升。研究表明,那些具备强推理能力的模型在工具理解测试中表现更好。这提示我们,未来的AI发展不应该只关注模型规模和数据量,还要重视逻辑推理和因果理解能力的培养。
对于普通用户而言,这项研究的意义在于帮助我们更好地理解当前AI技术的能力边界。虽然AI在许多方面已经表现出了令人惊叹的能力,但在需要深度物理世界理解的任务中,它们仍然有很大的改进空间。这意味着在可预见的未来,人类仍然需要在复杂的物理任务中发挥主导作用。
不过,这并不意味着AI在工具使用方面没有价值。即使在当前的技术水平下,AI仍然可以在许多场景中提供有用的辅助,特别是在工具识别和基础应用建议方面。关键是要了解其局限性,避免过度依赖。
研究团队还指出,PhysToolBench作为一个开放的评估基准,将有助于推动整个AI领域在工具理解方面的进展。就像标准化考试推动教育质量提升一样,有了统一的评估标准,研究人员就可以更好地比较不同方法的效果,从而加速技术进步。
从更广阔的视角来看,这项研究触及的是AI走向真正通用智能的关键问题。工具使用能力一直被认为是人类智能的重要标志,也是区别人类和其他动物的关键特征之一。如果AI要真正成为我们生活中不可或缺的智能伙伴,它们就必须掌握这种基本而重要的能力。
说到底,PhysToolBench这项研究为我们提供了一个清醒的认知:虽然AI技术发展迅速,但要真正实现通用人工智能,我们还有很长的路要走。这不仅需要技术上的突破,还需要对智能本质的更深层理解。但正如这项研究所展示的,只要我们能够准确识别问题、设计合适的评估方法,并持续努力改进,AI终将在各个方面接近甚至超越人类能力。
现在的AI就像是一个拥有丰富理论知识但缺乏实践经验的学生,它们知道很多关于工具的信息,但还不能真正理解工具的本质和灵活运用。但随着像PhysToolBench这样的研究不断推进,相信未来的AI助手会变得更加"心灵手巧",真正成为我们生活和工作中的得力伙伴。
Q&A
Q1:PhysToolBench测试的三个难度等级具体是什么?
A:PhysToolBench设计了三个递进的难度等级。第一级是基础工具识别,测试AI能否认识工具并知道其主要用途。第二级是深度理解,包括根据特定条件选择最合适的工具、判断多工具组合使用,以及识别损坏工具的可用性。第三级是创造性应用,当没有标准工具时,测试AI能否利用现有物品创造替代工具完成任务。
Q2:当前最先进的AI模型在工具理解测试中表现如何?
A:研究结果显示,即使是最先进的AI模型如GPT-5,在PhysToolBench上的得分也只有63%左右,远低于人类90%以上的平均水平。大多数AI模型在基础工具识别上还算可以,但在判断工具损坏状态和创造性应用方面表现很差。特别令人担忧的是,许多模型会推荐使用已经损坏的工具,存在安全隐患。
Q3:视觉中心推理方法是如何改善AI工具理解能力的?
A:视觉中心推理方法通过三步流程改善AI表现:首先进行全局场景分析,然后使用专门工具仔细检查每个物品的细节状态,最后综合所有信息进行逻辑推理。这种方法让AI更像人类一样仔细观察,而不是匆忙下结论。测试显示,该方法能将GPT-5在困难测试中的准确率从36.75%提升到54.81%,提升幅度达到18%。





京公网安备 11011402013531号