![]()
这项由复旦大学、同济大学、新加坡国立大学、华盛顿大学、电子科技大学以及香港中文大学联合开展的研究发表于2026年1月,论文编号为arXiv:2601.18631v1,为多模态大语言模型的工具使用能力带来了重大突破。
现代人工智能模型就像是刚学会看图识字的学生,虽然能够理解图像内容,但在面对需要多步推理的复杂视觉任务时往往力不从心。比如让AI规划一条从起点到终点的安全路径,既要避开障碍物,又要找到最短路线,或者让AI完成拼图游戏,需要理解图像的整体结构和局部细节。这些任务对人类来说相对简单,但对AI来说却是巨大挑战。
正如人类在遇到超出自身能力的问题时会借助工具一样,研究团队提出了一个革命性的想法:让AI模型学会主动使用各种视觉工具来解决复杂问题。这就好比教会一个学生不仅要会做题,还要知道什么时候该用计算器,什么时候该用尺子,什么时候该用放大镜。
研究团队开发的AdaReasoner系统就像是培养了一位经验丰富的侦探。这位AI侦探不仅具备基本的观察能力,更重要的是,它学会了在破案过程中灵活运用各种侦查工具。当遇到需要精确定位的线索时,它会使用"放大镜工具";当需要追踪路径时,它会使用"路径分析工具";当需要识别文字信息时,它会使用"文字识别工具"。
这项研究的独特之处在于,AI不是被动地接受人类指定的工具,而是学会了主动判断何时使用哪种工具,甚至能够在遇到全新工具时快速掌握其使用方法。这种能力的获得依靠三个核心技术创新:高质量的多轮工具交互数据生成系统、专门针对工具使用优化的强化学习算法Tool-GRPO,以及能够增强模型泛化能力的自适应学习机制。
研究团队设计了一套完整的工具箱,包含七种不同功能的视觉工具。POINT工具就像精准的定位器,能够在图像中准确找到指定物体的坐标;DRAW2DPATH工具像是路径规划师,能够在图像上绘制指定路径;ASTAR工具则像是最优路径计算器,能够找到避开障碍物的最短路径。此外还有DETECTBLACKAREA工具用于发现图像中的缺失区域,INSERTIMAGE工具用于图像拼接,OCR工具用于文字识别,以及CROP工具用于图像裁剪。
整个训练过程就像是培养一名多技能侦探的过程。首先,研究团队创建了大量高质量的案例,展示如何在不同情况下正确使用这些工具。这些案例不仅包含成功的示例,还特意加入了失败后的反思和回溯过程,教会AI在工具不起作用时如何调整策略。
在工具冷启动阶段,AI就像是跟着经验丰富的师傅学习基本技能。研究团队为每个任务设计了最优的问题解决蓝图。对于视觉空间规划任务,标准流程是先感知环境、制定计划、再验证结果;对于拼图任务,则是采用反复尝试和纠错的迭代过程;对于GUI问答任务,则是先聚焦关键区域再提取信息的策略。
更重要的是,研究团队在训练数据中故意加入了两种复杂场景。第一种是反思和回溯场景,让AI学会在遇到次优结果时主动反思和调整策略。第二种是工具失效场景,当外部工具无法提供有用结果时,AI需要回退到自身的内在能力来产生"尽力而为"的答案。
在随后的Tool-GRPO强化学习阶段,AI开始真正的实战训练。这个阶段就像是让侦探在真实案件中锻炼技能。系统会给AI分配实际任务,让它自主决定使用哪些工具、何时使用以及如何组合使用。每完成一个任务,系统会根据最终结果给予奖励,但这个奖励机制非常精巧。
奖励系统包含三个层面:格式奖励确保AI的输出结构正确,工具奖励根据工具使用的准确性给分,准确性奖励则基于最终答案的正确性。特别有意思的是,当AI答对最终问题时,不管是否使用工具都会得到满分;但如果答错了,那些使用了工具并且工具使用得当的尝试会获得部分分数,而纯粹猜测的答案则得零分。这种设计鼓励AI把工具当作不确定情况下的保险机制。
为了增强AI的泛化能力,研究团队还开发了一套独特的自适应学习策略。在训练过程中,他们会随机改变工具的名称和参数名称,比如将"计算器"随机重命名为"Func_X7a2"这样的无意义字符串。同时,工具的描述也会用不同的语言风格重新表述,但保持功能含义不变。这样做的目的是防止AI过度依赖工具名称的字面意思,而是真正理解工具的功能本质。
实验结果令人印象深刻。在视觉空间规划任务中,基础模型的准确率只有约30%,而使用AdaReasoner后准确率飙升至97%以上。更重要的是,这种改进对不同规模的模型都有效,3B和7B的模型在使用工具后都达到了接近的高性能表现,这表明工具的质量比模型本身的规模更为关键。
研究团队还发现了AI在学习过程中展现出的三种自适应行为。首先是学会采用有益工具。在路径规划任务中,AI最初很少使用ASTAR工具,但随着训练进行,它逐渐意识到这个工具的价值,使用频率稳步上升,最终稳定在每个样本使用1次以上。其次是学会摒弃无关工具。在验证任务中,ASTAR工具实际上是无用的,AI在初期会尝试使用,但很快发现没有效果后,使用频率逐渐降至接近零。最后是学会调节工具使用频率。对于持续有用的工具如POINT,AI会根据任务需求调整使用频率,在导航任务中保持高频使用,在验证任务中则适度减少。
泛化能力测试显示,即使面对全新的工具定义和从未见过的任务,AdaReasoner仍能保持良好的性能。在跨任务测试中,仅用拼图任务训练的模型能够成功迁移到视觉空间规划任务上,整体准确率从46.5%提升到75.8%。在跨工具测试中,即使将所有工具的名称和描述完全更换,模型依然能够准确理解工具功能并正确使用。
与现有方法相比,AdaReasoner在多个基准测试中都取得了显著优势。在视觉空间规划和拼图任务上,7B版本的AdaReasoner甚至超过了GPT-5这样的大型专有模型。更重要的是,AdaReasoner展现出了很强的工具使用统计特征:在拼图任务中,每个样本平均调用3.54次工具,成功率高达98.5%;在视觉搜索任务中,每个样本平均调用1.47次工具,成功率为90.04%。
这项研究的意义远超技术本身。它证明了通过有效的工具协调,较小的开源模型能够达到甚至超越大型专有模型的性能水平。这为AI民主化提供了新的可能性,让更多研究者和开发者能够构建高性能的视觉推理系统。
更深层次地看,这项工作揭示了一个重要原理:AI系统的性能瓶颈正在从模型内在能力转向工具使用效率。正如人类文明的进步很大程度上依赖于工具的发明和使用,AI系统的进步也可能越来越依赖于如何智能地利用外部工具。
当然,这项研究也面临一些局限。目前的工具集相对有限,主要集中在视觉处理领域。在更开放的任务中,如何自动发现和学习使用新工具仍然是一个挑战。此外,工具的可靠性和计算成本也是实际应用中需要考虑的因素。
展望未来,这项研究为构建更加智能和实用的AI助手指明了方向。我们可以期待看到能够根据任务需求自主选择和组合使用各种工具的AI系统,它们不仅能够处理预定义的任务,还能在遇到新问题时灵活调用适当的工具来寻找解决方案。
说到底,AdaReasoner的成功在于它不仅教会了AI如何看懂图像,更重要的是教会了AI如何像人类专家一样思考:知道在什么情况下需要什么工具,如何组合使用这些工具来解决复杂问题,以及如何在工具不可用时依靠自身能力。这种"工具化思维"的获得,可能标志着AI从单纯的模式识别向真正的智能推理迈出了关键一步。
这项研究为我们理解AI如何学习使用工具提供了宝贵的洞察,同时也为开发更加智能和实用的AI系统提供了具体的技术路径。对于那些希望深入了解技术细节的读者,可以通过论文编号arXiv:2601.18631v1查询完整的研究论文。
Q&A
Q1:AdaReasoner和普通AI模型有什么区别?
A:AdaReasoner最大的区别在于它学会了主动使用工具解决问题。普通AI模型只能依靠自身能力处理图像,而AdaReasoner像经验丰富的侦探,会根据任务需求选择合适的工具,比如用定位工具找物体位置,用路径工具规划路线,甚至能在遇到新工具时快速学会使用。
Q2:AdaReasoner在哪些任务上表现更好?
A:AdaReasoner在需要多步推理的复杂视觉任务上表现突出,特别是视觉空间规划、拼图游戏和图形用户界面问答。在这些任务中,7B版本的AdaReasoner甚至超过了GPT-5等大型模型,准确率从30%左右提升到97%以上,证明了工具使用能力比单纯的模型规模更重要。
Q3:AdaReasoner如何学会使用新工具?
A:AdaReasoner通过三阶段训练获得这种能力:首先学习高质量的工具使用示例,然后通过强化学习在实际任务中练习,最后通过自适应学习机制增强泛化能力。训练中会随机改变工具名称和描述,迫使AI理解工具的本质功能而不是依赖字面意思,从而能够快速适应新工具。





京公网安备 11011402013531号