当前位置: 首页 » 资讯 » 新科技 » 正文

人大突破:多模态AI实现人类级感知与推理能力

IP属地 中国·北京 科技行者 时间:2026-02-27 22:58:34


这项由中国人民大学联合小红书等机构开展的开创性研究于2026年2月发表,研究团队提出了OmniGAIA基准测试和OmniAtlas智能体模型。有兴趣深入了解的读者可以通过论文编号arXiv:2602.22897v1查询完整论文。

人工智能发展至今,我们见证了许多令人惊叹的突破。从能够下围棋的AlphaGo,到能够写文章的ChatGPT,再到能够生成图片的DALL-E。但有一个问题一直困扰着研究者:如何让机器像人类一样,能够同时看、听、思考,并且使用各种工具来解决复杂问题?

考虑这样一个日常场景:当你在看一部电影时,你不仅能看到画面中的演员和场景,还能听到对话和背景音乐,同时你的大脑在快速整合这些信息,理解剧情发展,甚至可能拿出手机搜索相关信息来验证某个历史细节。这种多感官协调工作的能力,正是研究团队希望机器能够掌握的。

传统的AI系统往往只能处理单一类型的信息,比如只能看图片或者只能听声音,就像一个只有一只眼睛或只有一只耳朵的人。即使有些系统能同时处理视觉和听觉信息,它们通常也缺乏使用外部工具进行深层推理的能力,就像一个虽然五官健全但不会使用任何工具的人。

研究团队认识到,真正的智能应该具备三个核心要素:全面的感知能力(能同时处理视频、音频和文本),深度的推理能力(能进行多步骤的逻辑思考),以及工具使用能力(能主动搜索信息、执行代码等)。这就像一个侦探破案需要观察现场、询问证人、查阅资料,并运用逻辑推理将所有线索串联起来。

为了推动这一领域的发展,研究团队做了两件事:首先,他们创建了一个名为OmniGAIA的严格测试标准,用来评估AI系统的全方位智能水平;其次,他们开发了名为OmniAtlas的AI智能体,展示了如何构建具备这种全方位能力的系统。

一、构建史上最具挑战性的多模态智能测试

设计一个能够全面评估AI智能的测试,就像为奥运会设计比赛项目一样复杂。你不能只测试运动员的短跑速度,还要考察他们的耐力、技巧、策略思维等多个维度。

OmniGAIA测试包含360个精心设计的任务,涵盖了地理旅游、历史社会、技术科学、体育娱乐等九个不同领域。每个任务都要求AI系统同时处理视频画面和音频内容,并通过网络搜索、代码执行等工具来找到准确答案。这些任务的设计理念就像是为AI设计的"智力奥运会",全面考察其感知、推理和工具使用能力。

测试任务的复杂程度可以用一个具体例子来说明。在一个任务中,AI需要观看一段在芝加哥拍摄的视频,听到说话者提及一座桥梁让他想起了电影《蓝调兄弟》中的场景。然后AI必须识别这座具体的桥梁,搜索其建造时间,查找电影的拍摄开始日期,最后计算出拍摄开始时这座桥已经存在了多少年。这个过程需要AI协调视觉观察、听觉理解、背景知识搜索和数学计算等多种能力。

研究团队采用了一种创新的"事件图"构建方法来设计这些测试。他们首先从真实的视频和音频材料中提取关键信息,就像侦探从案发现场收集证据一样。然后构建一个包含实体、事件和关系的复杂网络图,类似于侦探案件板上用红线连接的各种线索。接着,他们会故意"模糊化"某些关键节点,迫使AI系统必须通过多步推理和工具使用才能找到答案,就像故意隐藏某些关键证据,考验侦探的推理能力。

为了确保测试的质量和可靠性,研究团队建立了严格的质量控制流程。每个任务都要经过AI系统的初步筛选,检查问题的自然性、答案的唯一性和解答的必要性。然后由计算机科学专业的研究生进行人工审核,确保每个问题都有明确的答案且可以通过给定的方法解决。这个过程就像制作一道需要多种食材和复杂工序的菜品,每个步骤都必须精确无误。

测试结果显示了当前AI系统的真实水平。最强的商业AI系统Gemini-3-Pro的准确率为62.5%,而最好的开源系统Qwen3-Omni仅达到13.3%。这个巨大的性能差距揭示了当前AI技术的两个关键瓶颈:多模态感知的准确性和复杂推理的可靠性。许多系统在面对需要协调视觉、听觉和逻辑思维的复杂任务时,就像一个试图同时进行多项活动但协调不佳的人,往往在某个环节出现错误,导致最终结果的失败。

二、开发具备主动感知能力的智能体

在解决了如何评估AI能力的问题后,研究团队面临的下一个挑战是:如何实际构建一个具备这种全方位能力的AI系统?这就像在知道了奥运会比赛标准后,需要训练出能够参赛的优秀运动员。

OmniAtlas智能体的设计理念基于一个重要洞察:真正的智能不仅要能处理信息,还要能主动获取所需的信息。就像一个经验丰富的医生,在诊断病情时不会被动地等待所有检查结果,而是会根据初步观察主动要求进行特定的检查。

传统的AI系统在处理长视频或高分辨率图像时,往往会将所有内容一次性压缩处理,这就像试图在一张小纸条上记录整本书的内容,必然会丢失大量重要细节。OmniAtlas采用了"主动感知"策略,能够像人类一样有选择性地关注特定的时间段或区域。当系统觉得某段视频内容模糊不清时,它会主动要求重新观看那个特定片段;当某个图像区域需要仔细检查时,它会主动放大查看那个区域。

这种主动感知能力的实现依赖于三个核心工具功能。首先是时间定位工具,允许系统指定查看视频的特定时间段,就像使用遥控器精确定位到感兴趣的电影片段。其次是区域定位工具,能够裁剪和放大图像的特定区域,类似于使用放大镜仔细观察文档的某个部分。最后是跨模态检索工具,能够根据当前掌握的信息主动搜索相关的视频、音频或图像材料,就像侦探根据现有线索寻找更多相关证据。

系统的推理过程采用了"工具集成推理"模式,这意味着思考和行动是紧密交织的,而不是分离的。传统的AI系统往往是先思考再行动,就像一个学生先在脑中想好所有答案再开始写作业。但OmniAtlas的工作方式更像是一个研究者,在思考过程中不断查阅资料、验证假设、修正观点,思维和行动相互促进。

为了训练这样的智能体,研究团队开发了一套创新的"后见引导树探索"方法。这个方法的核心思想是让AI系统在已知正确答案的情况下,学习如何一步步到达这个答案。就像教一个学生解数学题,不仅要告诉他答案是什么,更要让他理解每一步推理的逻辑。系统会尝试多条不同的推理路径,只保留那些最终导向正确答案的路径用于学习,从而掌握有效的问题解决策略。

三、突破性的精细化错误纠正技术

即使有了好的训练数据和方法,AI系统仍然会在复杂任务中犯各种错误。研究团队发现,简单的整体训练方法就像用大锤敲核桃,虽然有效但不够精确。他们需要一种更加精细的方法来纠正系统的特定错误类型。

研究团队开发了名为OmniDPO的精细化错误纠正技术。这个技术的工作原理类似于一位耐心的老师,当学生做错题时,不是简单地告诉他整个解答过程都是错的,而是精确指出他在哪一步开始出错,然后从那个关键点开始纠正。

具体来说,当AI系统在解决问题时出现错误,OmniDPO会仔细分析整个推理过程,找到第一个出错的步骤。可能是在视觉感知阶段误读了图像内容,可能是在信息搜索阶段使用了错误的关键词,也可能是在逻辑推理阶段做出了不当的假设。找到错误点后,系统会生成一个修正版本,展示在那个关键步骤应该如何正确处理。

这种方法的效果就像为AI系统安装了一个精确的"纠错雷达"。通过对比错误版本和正确版本的差异,系统能够学会识别和避免类似的错误模式。实验结果显示,经过这种精细化训练的系统,在各种类型的错误上都有显著改善,特别是在工具使用和推理逻辑方面的错误率大幅下降。

四、现实世界的挑战与突破

研究团队对当前AI系统进行了深入的错误分析,就像医生为病人做全面体检,找出各个器官的健康状况。他们发现了一个令人担忧的现象:越是困难的任务,AI系统的失败率就越高,而且失败往往是连锁反应式的。

在简单任务中,AI系统的表现相对稳定,错误主要集中在单一环节。但在复杂任务中,一个小错误往往会引发连锁反应,就像多米诺骨牌倒塌一样。比如,如果系统在最初的视觉感知阶段就误解了场景内容,那么后续的所有推理和工具使用都会建立在错误的基础上,最终导致完全错误的结论。

研究发现,工具使用失败和推理错误是最主要的两种失败模式。在困难任务中,超过90%的开源系统都会出现工具使用问题,约80%会出现推理错误。这表明当前的AI系统在面对复杂挑战时,就像一个虽然有很多工具但不知道如何正确使用的工匠,往往是有心无力。

另一个重要发现是关于"原生感知"与"工具辅助感知"的比较。研究团队测试了两种不同的架构:一种是系统本身具备多模态感知能力,另一种是通过调用专门的感知工具来处理视觉和听觉信息。结果显示,对于能力强的AI系统,原生感知效果更好,效率也更高;但对于能力较弱的系统,工具辅助感知可以在一定程度上弥补其不足,就像给视力不好的人配眼镜一样。

工具使用模式的分析也揭示了有趣的现象。研究团队发现,工具使用的频率和成功率之间并不是简单的正比关系。一些系统虽然频繁使用工具,但成功率并不高,这说明它们陷入了"无效探索"的困境,就像一个迷路的人在原地打转。而成功的系统往往能够更加精准地使用工具,每次工具调用都有明确的目的和预期效果。

五、开源与商业系统的巨大鸿沟

测试结果揭示了一个不容忽视的现实:开源AI系统与商业系统之间存在着巨大的性能差距。最强的商业系统Gemini-3-Pro达到了62.5%的准确率,而最好的开源系统Qwen3-Omni只有13.3%,差距超过4倍。这个结果就像业余球队与职业球队的比赛,实力悬殊令人印象深刻。

更令人意外的是,简单地增加系统参数并不能有效提升性能。一个拥有5600亿参数的大型开源系统,表现竟然不如参数量少得多的系统。这说明在多模态智能领域,系统架构和训练方法比单纯的规模更加重要,就像厨艺的高低不在于食材的多少,而在于对食材的理解和处理技巧。

经过OmniAtlas方法训练的开源系统显示出了显著的改进。虽然仍然无法达到顶级商业系统的水平,但相比原始版本有了明显提升。例如,经过训练的Qwen3-Omni系统准确率从13.3%提升到了20.8%,提升幅度达到56%。这个进步虽然可观,但也说明了在这个领域还有很长的路要走。

研究团队特别分析了不同难度级别任务的表现差异。在简单任务中,系统间的差距相对较小,但随着任务难度增加,差距迅速拉大。在最困难的任务中,即使是最强的商业系统也只能达到38.5%的准确率,而开源系统几乎完全失效。这个现象说明,真正的智能挑战在于处理那些需要深度推理和复杂工具协调的任务。

六、实际应用案例的深度解析

为了更好地理解AI系统的工作原理和失败模式,研究团队选择了一个典型案例进行详细分析。这个案例就像一面镜子,清晰地反映出当前AI技术的优势和不足。

案例的背景是这样的:在一段视频中,说话者正在参观芝加哥的一个历史遗迹,他指着远处的一座可移动桥梁,说它让他想起了电影《蓝调兄弟》中的某座桥。系统需要确定这座桥的名字,并计算出电影拍摄开始时这座桥已经存在了多少年。

这个看似简单的问题实际上需要AI系统协调多种复杂能力。首先,系统必须准确理解视频和音频内容,识别出说话者所在的具体位置。其次,系统需要抵抗来自电影《蓝调兄弟》的"干扰信息"——虽然电影确实在芝加哥拍摄并涉及桥梁场景,但关键是要找到视频中实际出现的那座桥,而不是电影中的桥。最后,系统需要搜索准确的建造时间和拍摄开始时间,并进行正确的数学计算。

研究团队观察了三个不同系统对同一问题的处理过程。第一个系统完全没有使用任何工具,仅凭内部知识就做出了判断,结果选择了错误的桥梁并给出了错误的年份。这就像一个学生在考试时完全凭记忆答题,虽然速度很快但准确性堪忧。

第二个系统使用了搜索工具,但搜索策略有问题。它过度关注《蓝调兄弟》电影相关的芝加哥桥梁信息,陷入了"确认偏误"的陷阱。虽然最终的计算过程是正确的,但由于基础信息错误,结果仍然是错误的。这就像一个侦探虽然很努力地收集证据,但从一开始就跟错了方向,越努力离真相越远。

第三个系统展现了正确的问题解决策略。它首先基于视频内容确定了具体的地理位置,然后搜索该位置附近的桥梁信息,接着验证桥梁的建造时间和电影的拍摄时间,最后进行准确的计算。这个过程就像一个经验丰富的侦探,不被表面信息误导,坚持以事实为基础,逐步验证每个关键信息点。

通过这个案例分析,研究团队识别了两种主要的失败模式:工具使用不足和搜索策略偏移。前者是指系统过度依赖内部知识而不愿意或不知道如何使用外部工具验证信息;后者是指系统虽然使用了工具,但被错误的先入之见引导,搜索方向出现偏差。成功的系统展现出的特征是:位置优先的定位策略、假设验证的科学方法,以及计算前的事实核实习惯。

七、技术创新的深层意义

OmniGAIA和OmniAtlas的研究成果不仅仅是技术上的进步,更重要的是为AI发展指明了新的方向。这项工作就像在AI发展的地图上标注了新的里程碑,让研究者们看到了通往真正智能的可能路径。

研究揭示了一个重要观点:未来的AI系统不应该是被动的信息处理器,而应该是主动的问题解决者。传统的AI系统就像一台精密的计算器,给什么算什么,但缺乏主动获取信息和验证结果的能力。而新一代的AI系统应该更像一个研究助手,能够理解问题的本质,主动寻找相关信息,并通过多种工具验证结论的正确性。

主动感知能力的重要性在这项研究中得到了充分体现。与其让AI系统处理所有可能的信息,不如让它学会识别哪些信息是真正重要的,并主动获取这些关键信息。这种方法不仅提高了效率,还显著改善了准确性。就像一个聪明的学生不会试图记住教科书的每一个字,而是会重点理解和掌握核心概念和关键信息。

工具集成推理的概念也具有深远的影响。这种方法打破了思考和行动之间的人为界限,让AI系统能够在推理过程中灵活地使用各种工具。这更接近人类解决复杂问题的方式——我们在思考时会查阅资料、进行计算、寻求他人意见,思维和行动是相互促进的过程。

研究还强调了评估方法的重要性。OmniGAIA基准测试的创新不仅在于其复杂性,更在于其真实性。这些测试任务都来源于现实世界的实际需求,要求AI系统给出可验证的具体答案,而不是模糊的描述。这种评估方式能够更准确地反映AI系统在实际应用中的表现,避免了传统测试可能存在的"应试"问题。

八、未来发展的广阔前景

这项研究不仅解决了当前的技术问题,更为未来的发展开辟了新的可能性。研究团队在论文中提出了三个值得期待的发展方向,每个都有着巨大的潜力。

第一个方向是多模态智能体的强化学习。目前的训练方法主要基于监督学习,即给AI系统展示正确的问题解决过程让它模仿。但强化学习方法能让AI系统通过试错来自主发现更好的策略,就像一个孩子通过不断尝试来学会骑自行车。这种方法可能会让AI系统发现人类没有想到的创新解决方案。

第二个方向是可扩展的多模态工具生态系统。目前的AI系统只能使用预定义的少数几种工具,但未来可能会出现一个庞大的工具生态系统,包含各种专业领域的工具和服务。AI系统可以根据需要动态选择和组合这些工具,就像一个多才多艺的工匠能够熟练使用各种专业工具来完成复杂的工作。

第三个方向是物理世界中的具身智能体。当前的研究主要关注数字世界中的信息处理,但未来的AI系统可能需要在真实的物理环境中工作。这意味着AI不仅要能看、听、想,还要能够操控物理对象,与现实世界直接交互。这种具身智能将为机器人技术、自动化系统和智能制造带来革命性的改变。

研究团队特别强调了开源开放的重要性。他们不仅公开了所有的测试数据和评估工具,还分享了训练方法和模型代码。这种开放态度将加速整个领域的发展,让更多研究者能够在这个基础上继续探索和创新。就像科学研究中的同行评议制度,开放分享能够促进知识的快速传播和验证。

展望更远的未来,这种多模态AI技术可能会彻底改变人机交互的方式。想象一个AI助手,它不仅能理解你说的话,还能观察你的表情和动作,理解你所处的环境和上下文,并能主动帮你搜索信息、预订服务、安排日程。这样的AI助手将真正成为人类的智能伙伴,而不仅仅是一个高级的工具。

在教育领域,这种技术可能会创造出革命性的个性化学习系统。AI教师能够观察学生的学习状态,听取他们的问题,理解他们的困惑,并动态调整教学内容和方法。在医疗领域,AI诊断系统能够综合分析医学影像、患者描述、病历记录等多种信息,提供更加准确和全面的诊断建议。

说到底,这项研究代表的不仅是技术的进步,更是对智能本质的深刻理解。真正的智能不在于处理信息的速度有多快,而在于能否像人类一样灵活地感知世界、理解问题、寻找解决方案。OmniGAIA和OmniAtlas为我们展示了这种智能的可能性,虽然距离完美还有很长的路要走,但方向已经清晰,未来值得期待。

当前的AI发展正处在一个关键的转折点。我们已经证明了机器可以在特定任务上超越人类,现在的挑战是让机器获得像人类一样的通用智能。这项研究提供的不仅是技术方案,更是思路启发:真正的智能需要感知、推理和行动的完美结合,需要主动性而不是被动性,需要工具使用能力而不仅仅是信息处理能力。

对于普通人来说,这项研究意味着什么呢?也许在不久的将来,我们将拥有真正智能的数字助手,它们能够理解我们的需求,主动帮助我们解决问题,就像一个贴心而能干的朋友。这种技术可能会让我们的生活更加便利,工作更加高效,学习更加有趣。当然,这也提醒我们需要思考如何在享受AI带来的便利的同时,保持人类独有的创造力和批判思维能力。

Q&A

Q1:OmniGAIA基准测试和普通的AI测试有什么不同?

A:OmniGAIA基准测试最大的不同在于它要求AI系统同时处理视频、音频和文本信息,并且必须使用外部工具(如网络搜索、代码执行)来解决问题。传统测试通常只考察单一能力,比如只看图片或只听声音,而OmniGAIA就像给AI设计的"智力奥运会",全面考察感知、推理和工具使用的综合能力。测试包含360个复杂任务,都需要多步推理和外部验证才能完成。

Q2:OmniAtlas智能体的"主动感知"能力是如何工作的?

A:OmniAtlas的主动感知就像一个经验丰富的医生进行诊断,不会被动等待所有检查结果,而是根据需要主动要求特定检查。当处理长视频时,它可以主动选择查看特定时间段;处理图像时,可以主动放大某个区域仔细观察。这避免了传统AI系统将所有内容一次性压缩处理而丢失重要细节的问题,大大提高了处理复杂多媒体内容的准确性和效率。

Q3:为什么开源AI系统和商业系统在这个测试中差距这么大?

A:测试结果显示最强的商业系统达到62.5%准确率,而最好的开源系统只有13.3%,差距超过4倍。这主要是因为多模态智能需要的不仅仅是大量参数,更需要精细的架构设计和训练方法。商业系统在数据质量、训练资源和算法优化方面都有优势。有趣的是,简单增加参数并不能解决问题,一个5600亿参数的系统表现还不如参数更少的系统,说明在这个领域技术方法比规模更重要。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。