当前位置: 首页 » 资讯 » 新科技 » 正文

罗格斯大学:AI实现看想做多模态协同

IP属地 中国·北京 科技行者 时间:2026-01-14 16:52:56


这项由罗格斯大学的杨洋、赵明宇、王振庭、顾迪飞等研究团队完成的突破性研究,发表于2024年11月的arXiv预印本平台,论文编号为arXiv:2511.17729v1。这项研究首次建立了一个全新的评估标准,专门用来测试人工智能是否真的能像人类一样,同时处理图像、文字和工具操作三项任务。

回想一下你在厨房里做饭的场景:你需要同时看着菜谱上的图片,理解文字说明,还要实际操作各种厨具。这看似简单的过程,对人工智能来说却是一个巨大的挑战。传统的AI系统往往只能处理其中一种任务,就像只会看图不会读字的机器人,或者只会按指令行事但看不懂环境的助手。

研究团队发现,现有的AI评估方法存在严重的局限性。就好比用测试单项技能的方式来评估一个全能选手,完全无法反映真实的综合能力。于是,他们创建了一个名为M?-Bench的全新测试平台,这个名字中的三个"M"分别代表了多模态(Multi-Modal)、多跳跃(Multi-Hop)和多线程(Multi-Threaded)。

这个测试平台就像一个精心设计的综合考试,包含了28个不同的任务场景,涵盖了从识别商品价格到规划旅行路线,从医疗建议到创建演示文稿等各种真实生活场景。每个任务都需要AI系统像人类一样,既要理解图像内容,又要处理文字信息,还要实际操作各种工具来完成目标。

一、多模态工具使用的现实挑战

当前的AI系统面临的最大挑战,就像让一个从未离开过实验室的学者突然去管理一家餐厅。他们可能在某个专业领域表现出色,但当需要同时处理多种不同类型的信息和任务时,就会手足无措。

在日常生活中,我们经常需要同时运用多种感官和技能。比如,当你看到一张美食照片时,你不仅要识别出这是什么菜,还要读懂菜谱的制作步骤,然后实际操作厨具来烹饪。这个过程涉及视觉识别、文字理解和实际操作三个层面的协调配合。

研究团队指出,目前的AI评估方法就像只考察学生的单科成绩,而不看他们是否能在实际工作中综合运用各种技能。大多数现有的测试要么只关注文字处理,要么只测试图像识别,很少有测试能够评估AI在真实场景中的综合表现能力。

更重要的是,真实世界的任务往往不是线性的单步操作。就像做一顿丰盛的晚餐,你需要同时进行多个步骤:一边煮饭一边炒菜,同时还要准备调料和餐具。这种多线程的工作方式对AI系统提出了前所未有的挑战。

二、M?-Bench:全新的AI能力测试标准

M?-Bench就像一个全方位的驾驶考试,不仅要测试你是否会开车,还要看你能否在复杂的交通环境中安全驾驶,能否同时处理导航、音乐和通话等多项任务。

这个测试平台包含了231个不同的工具,分布在28个不同的服务器上,就像一个巨大的工具箱,里面有各种专业工具。这些工具涵盖了学术研究、地理旅行、科学探索、电子商务、办公自动化、天气查询和健康管理等多个领域。

研究团队特别强调了三个重要特征。多模态意味着AI需要同时处理图像和文字信息,就像一个医生既要看X光片,又要读病历,还要与患者交流。多跳跃指的是任务需要多个步骤,每个步骤的结果都会影响下一步的决策,就像做科学实验时,每个步骤的观察结果都会指导下一步的操作。多线程则表示某些操作可以同时进行,就像一个经验丰富的厨师可以同时处理多道菜的不同步骤。

为了确保测试的公平性和准确性,研究团队开发了一套独特的评分系统。这套系统不会因为AI使用了不同的表达方式就扣分,而是关注其是否真正理解了任务要求并采取了正确的行动。就像评判一个菜谱的执行情况,重要的不是厨师是否严格按照每个用词,而是最终做出的菜是否符合要求。

三、创新的相似度匹配评估方法

传统的AI评估方法就像老师只按标准答案打分,稍有不同就算错误。但现实中,同一个问题可能有多种正确的解决方案,就像去同一个目的地可能有多条不同的路线。

研究团队开发了一种全新的评估方法,叫做相似度驱动的匈牙利匹配算法。这个方法的工作原理就像一个智能的配对系统,能够识别出在不同表达方式下的相同意图。

具体来说,系统会将每个AI操作转换成标准化的文本描述,然后使用先进的文本理解技术来计算不同操作之间的相似度。这就像有一个超级智能的翻译官,能够理解即使用词不同,但意思相同的句子。

比如,当AI需要搜索产品信息时,无论它说"查找iPhone价格"还是"搜索苹果手机价钱",评估系统都能识别出这是同一类操作。这种方法大大提高了评估的准确性和公平性,避免了因为表达方式不同而造成的误判。

更重要的是,这套系统能够评估AI操作的结构合理性。就像评判一个建筑项目,不仅要看每个部件是否正确,还要看整体结构是否合理,各个部分是否协调配合。

四、全面的性能评估体系

研究团队设计了一套全方位的评估指标,就像体检时要检查身体的各个系统一样。这套指标不仅关注AI是否完成了任务,还要看它完成任务的方式是否合理高效。

检测指标主要评估AI是否选择了正确的工具,这就像评判一个工人是否选择了合适的工具来完成工作。召回率测量AI是否遗漏了必要的操作,而精确率则检查AI是否进行了不必要的操作。这就像评判一个菜谱的执行情况,既要确保所有必要的步骤都完成了,又要避免添加不相关的操作。

轨迹对齐指标更加深入,它评估AI操作的整体质量。参数相似度检查AI是否正确理解了工具的使用方法,就像评判一个人是否知道如何正确使用特定的厨具。步骤连贯性评估AI是否合理地组织了操作序列,避免了不必要的重复或遗漏。

顺序一致性特别重要,因为在真实世界中,很多操作都有严格的先后顺序要求。就像做蛋糕必须先打蛋再加面粉,如果顺序颠倒就会影响最终结果。合并纯度则检查AI是否合理地将可以同时进行的操作组合在一起,这就像评判一个厨师是否能够高效地同时处理多道菜。

为了保证评估的全面性,研究团队还引入了大语言模型评审团。这个评审团由四个不同的AI模型组成,就像邀请多位专家来共同评判一个复杂的项目。他们会评估任务的整体完成情况和信息的准确性,确保评估结果的客观性和可靠性。

五、主流AI模型的表现分析

研究团队测试了14个目前最先进的多模态AI模型,结果就像一场大型的技能竞赛,展现了不同AI系统的优势和不足。

GPT-5表现最为出色,平均得分达到0.482分(满分1分),就像班级里的尖子生,在各个方面都表现稳定。它在召回能力方面得分0.627,说明它能够很好地识别和执行必要的操作。在参数相似度方面得分0.583,表明它对工具使用的理解相当准确。

Gemini 2.5 Pro紧随其后,得分0.423,在某些特定任务上甚至超越了GPT-5。Grok 4也表现不俗,得分0.411,显示出强大的综合能力。这就像不同的专业选手,各有所长。

有趣的是,研究发现模型的大小并不直接决定性能。一些较小但经过精心优化的模型在特定任务上可能表现更好,这就像技艺精湛的工匠可能比力气更大的新手做得更好。

Claude系列模型表现出有趣的特点:Claude 4.5 Haiku虽然在精确度方面得分很高(0.480),但在召回能力上相对较弱,说明它倾向于进行保守但准确的操作。这就像一个非常谨慎的司机,很少出错但有时会错过机会。

较早期的模型如GLM 4.5v和Qwen2.5-VL-72B表现相对较弱,特别是在多模态任务的协调能力方面。这主要是因为它们在处理复杂的视觉-语言理解任务时还存在一些技术限制。

六、具体任务场景的深度分析

研究团队设计了28个不同的任务场景,每个都反映了真实世界的复杂需求。这些任务就像一系列精心设计的实战演练,能够全面检验AI的综合能力。

在商品价格评估任务中,AI需要识别图像中的产品,然后使用亚马逊等平台的工具查找当前价格。这个任务看似简单,实际上需要精确的图像识别能力、产品匹配技能和数据整合能力。结果显示,大多数模型在这个任务上表现不佳,主要困难在于将视觉识别的结果准确转换为搜索查询。

旅游规划任务更加复杂,AI需要识别地标建筑,获取当地的天气信息,并推荐附近的餐厅。这个任务就像一个综合性的旅游顾问工作,需要地理知识、实时信息获取和推荐算法的配合。GPT-5和Gemini系列在这类任务上表现较好,显示出强大的多步骤规划能力。

医疗咨询模拟任务要求AI根据症状描述查找相关信息,评估药物相互作用,并提供购买建议。这个任务特别考验AI的责任感和准确性,因为错误的医疗建议可能导致严重后果。研究发现,大多数模型在这类高风险任务上都表现得相当保守。

演示文稿制作任务展现了AI的创意和组织能力。AI需要从图像中提取信息,创建幻灯片,并根据内容自动生成问答环节。在这个任务上,不同模型表现出明显的差异,一些模型擅长内容提取但在排版设计上较弱,另一些模型则相反。

条码识别和图书查询任务虽然技术难度不高,但需要精确的执行和数据验证。有趣的是,几乎所有模型在这个任务上都表现良好,说明对于定义明确的技术任务,当前的AI已经相当成熟。

七、错误模式和性能瓶颈分析

通过详细分析AI模型的失败案例,研究团队发现了几种典型的错误模式,这些发现对于改进AI系统具有重要意义。

最常见的错误是"非法调用格式",占所有错误的很大比例。这就像一个人想要使用某个工具,但不知道正确的使用方法,结果工具根本无法启动。比如,GLM 4.5v在处理果蔬营养分析任务时,生成的指令格式完全错误,使用了非标准的标记符号,导致系统无法理解其意图。

"未知工具调用"是另一种常见错误,AI试图使用根本不存在的工具。这就像有人想要使用一个虚构的厨具来做菜一样。Qwen2.5-VL-72B在电影查询任务中反复尝试调用不存在的OCR工具和电影数据库工具,即使系统多次提示这些工具不存在,它仍然坚持错误的操作。

"参数错误"问题反映了AI对工具功能的理解不够深入。就像知道某个工具的名字,但不知道如何正确设置参数。即使工具存在且可用,错误的参数设置也会导致操作失败。

一些模型表现出"幻觉"问题,它们会编造并不存在的工具结果。这就像一个人为了完成任务而虚构信息,看起来完成了工作,实际上却是空中楼阁。这种问题在复杂的多步骤任务中尤其危险,因为错误的中间结果会影响所有后续操作。

图像理解错误也很常见,特别是在需要精确识别的任务中。Claude 4.5 Sonnet在旅游比较任务中错误识别了地标建筑,将东京的建筑误认为是中国西宁的建筑,这个基础错误导致了整个任务链的失败。

八、技术创新和方法论突破

M?-Bench的技术创新不仅在于评估内容的设计,更在于评估方法的革新。传统的AI评估就像用固定的模板来判断作文,只要格式不对就算错误。而新的评估方法更像一个理解力强的老师,能够识别出不同表达方式下的相同意图。

相似度计算的核心创新在于将每个AI操作转换为语义向量,然后在高维空间中计算相似度。这个过程就像为每个操作创建一个独特的"指纹",即使表达方式不同,相同功能的操作也会有相似的"指纹"。

匈牙利匹配算法的应用解决了一对一对应的问题。在复杂的多步骤任务中,AI可能以不同的顺序执行相同的操作,或者使用略微不同的参数达到相同的效果。传统的逐步对比方法无法处理这种情况,而匈牙利算法能够找到最优的匹配方案。

工具分桶策略确保了评估的公平性。系统会将操作按照工具类型分组,只有使用相同工具的操作才会进行相似度比较。这避免了将完全不同类型的操作误判为相似。

弱筛选和强筛选的双重阈值机制进一步提高了评估的准确性。弱筛选阈值排除了明显不相关的操作对,而强筛选阈值确保了只有真正高质量的匹配才会被认可。这就像有两道质量检查关卡,确保最终结果的可靠性。

轨迹重建技术让系统能够识别出AI是否采用了合理的问题解决策略。即使某些具体步骤有差异,只要整体思路正确,系统就会给予相应的分数。这种评估方式更符合人类评判的直觉。

九、实际应用和未来影响

这项研究的影响远远超出了学术范围,它为AI在真实世界的应用提供了重要的参考标准。就像建立了一套通用的驾驶技能测试,帮助我们更好地评估AI是否已经准备好处理复杂的现实任务。

在企业应用方面,M?-Bench为公司选择和部署AI系统提供了科学依据。企业不再需要盲目相信AI供应商的宣传,而是可以使用标准化的测试来评估不同AI系统在特定任务上的实际表现。这就像为企业提供了一套专业的AI"体检"工具。

对于AI研发者来说,这套评估标准指出了当前技术的主要瓶颈和改进方向。研究结果显示,即使是最先进的AI模型,在多模态任务协调和结构化推理方面仍有很大改进空间。这为未来的技术发展提供了明确的目标。

在教育领域,这种评估方法为开发更智能的教学助手提供了参考。一个真正有用的AI教学助手不仅要理解学生的文字问题,还要能够分析学生提交的图像作业,并使用适当的工具来提供帮助。

医疗健康领域的应用前景尤其值得关注。研究中的医疗咨询模拟任务展现了AI在辅助诊断和药物建议方面的潜力,但同时也暴露了当前系统在处理敏感医疗信息时的不足。这为开发更安全可靠的医疗AI指明了方向。

在创意和设计领域,AI需要能够理解视觉元素,处理文字描述,并操作各种设计工具。研究中的演示文稿制作任务展现了这种应用的可能性,但也显示了当前AI在创意表达方面的局限性。

十、研究的局限性和改进方向

研究团队诚实地承认了当前工作的局限性,这些局限性也为未来的研究指出了方向。就像建造一座大桥,第一期工程可能只是搭建了主要框架,还有很多细节需要在后续工程中完善。

任务覆盖面虽然广泛,但仍然有限。28个任务场景虽然涵盖了多个重要领域,但现实世界的应用场景几乎是无穷无尽的。特别是一些新兴的应用领域,如虚拟现实、增强现实和物联网环境下的AI交互,还没有得到充分的覆盖。

评估指标虽然比传统方法更加全面,但仍然可能遗漏一些重要的能力维度。比如,AI的学习适应能力、错误恢复能力和与用户交互的自然度等,这些都是实际应用中非常重要但难以量化的特征。

文化和语言的多样性也是一个需要关注的问题。当前的测试主要基于英语环境,对于其他语言和文化背景下的AI表现还缺乏深入的了解。不同文化背景下的用户可能有不同的表达习惯和期望,这会影响AI系统的适用性。

计算资源和时间成本是另一个实际考量。完整的M?-Bench评估需要相当大的计算资源,这可能限制了一些研究机构和小公司的使用。如何平衡评估的全面性和实用性是一个需要持续优化的问题。

安全性和隐私保护在当前的评估框架中还没有得到充分重视。虽然研究团队注意到了在处理敏感信息时AI表现出的保守态度,但如何系统性地评估AI在隐私保护和安全操作方面的能力还需要进一步研究。

说到底,这项研究就像为AI世界建立了第一套真正全面的"驾照考试"制度。它不仅测试AI是否知道如何操作,更关注它们是否能在复杂的现实环境中安全、高效地工作。研究结果显示,即使是目前最先进的AI模型,距离真正达到人类水平的综合智能还有不小的差距,但这个差距正在快速缩小。

这项工作的意义不仅在于提供了一个评估工具,更在于为整个AI行业指出了前进的方向。就像GPS为迷路的司机指明了道路,M?-Bench为AI研究者和开发者提供了明确的改进目标。随着更多研究团队使用这套标准,我们可以期待AI技术在多模态任务处理能力方面取得更大的突破。

对于普通人来说,这项研究意味着我们离真正智能的AI助手又近了一步。不久的将来,AI可能真的能够像一个得力的助手一样,理解你的需求,观察环境情况,并熟练地操作各种工具来帮你完成复杂的任务。当然,正如研究所显示的,这条路还很长,但至少现在我们有了正确的方向和评判标准。

有兴趣深入了解这项研究技术细节的读者,可以通过arXiv:2511.17729v1查询完整的学术论文,获得更详细的技术说明和实验数据。

Q&A

Q1:M?-Bench是什么?

A:M?-Bench是由罗格斯大学研究团队开发的AI评估平台,专门测试人工智能是否能像人类一样同时处理图像、文字和工具操作。它包含28个真实任务场景和231个工具,能够全面评估AI的综合智能水平。

Q2:为什么现在的AI模型在M?-Bench上表现不好?

A:主要问题是大多数AI模型缺乏真正的多模态协调能力。它们可能单独处理图像或文字很好,但在需要同时理解图像内容、处理文字指令、操作工具完成复杂任务时就会出现各种错误,比如调用错误的工具或理解错误的参数。

Q3:M?-Bench对普通人有什么意义?

A:M?-Bench帮助我们了解AI技术的真实水平,避免被夸大的宣传误导。它也为开发更实用的AI助手指明了方向,让我们对什么时候能拥有真正智能的AI助手有更现实的期待。同时为企业选择AI系统提供了科学的评估标准。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。