当前位置：首页 » 资讯 » 新科技 » 正文

迎接「万物皆可RAG」时代：最新综述展示50多种多模态组合

IP属地中国·北京 机器之心Pro 时间：2025-12-02 18:19:29

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成（RAG）来产生用户问题的答案。随着多模态大模型（MLLMs）的崛起，大模型的主流技术之一 RAG 迅速向多模态发展，形成多模态检索增强生成（MM-RAG）这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而，目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段，现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合；音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成，却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题：A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度：
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出，包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理，作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间，并指出了其中尚未被充分探索的空白（如表 1 所示）。在作者提出的 54 种潜在组合中，目前只有 18 种组合存在已有研究（表 1 中绿色对勾的格子），许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入，生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1：基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上，作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法，不仅系统性地组织了现有研究，还清晰展示了不同 MM-RAG 系统的核心技术组件（如表 2 所示），为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法，该综述深入分析了MM-RAG系统的工作流程，并将其划分为四个关键阶段（如图 1 所示）：

图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval)：数据组织和查询的准备工作。
b)检索 (Retrieval)：高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation)：将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation)：根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法，并讨论了对于不同模态针对性的优化策略，为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南：
训练、评估与应用前瞻
除了技术流程，该综述还提供了构建 MM-RAG 系统的一站式指南：
训练策略：讨论了 MM-RAG 系统的训练方法，以最大化其检索和生成能力。评估方法：总结了现有的MM-RAG 评估指标和 Benchmark，帮助研究者评估系统性能。应用与未来：探讨了 MM-RAG 在多个领域的潜在应用，并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述，该论文不仅为研究者提供了索引式的知识入口，也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库，方便读者追踪最新进展。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

软银集团加大对OpenAI的投资，凸显其在AI领域的激进押注

腾讯集团副总裁李强：Token是重要指标但非唯一，不靠极端激励抢市场

中国移动开展量子通信技术攻关，加速培育“量子+”产业生态

消息称三星加速硅光子开发，目标2028年实现与AI芯片全面集成

新世代BMW iX3长轴距版官宣：多项中国专属配置，北京车展首发

151个软件包，暗藏肉眼不可见的恶意代码，AI批量生成的？

全站最新

软银集团加大对OpenAI的投资，凸显其在AI领域的激进押注

腾讯集团副总裁李强：Token是重要指标但非唯一，不靠极端激励抢市场

中国移动开展量子通信技术攻关，加速培育“量子+”产业生态

消息称三星加速硅光子开发，目标2028年实现与AI芯片全面集成

热门推荐

创新药风向生变：院外渠道成主战场，消费品类兴起

硅谷频繁“限流”AI背后：“烧钱游戏”不再，算力投入效率获重视

国内核药领域“首次”！“抗癌核弹”实现居里级量产，加速走向临床应用

中东战火下半导体供应链受阻：氦气之外这些光刻工艺材料也受影响

航空燃油价格短短一个月翻倍，一场全球“飞行危机”正在显现

经济学家警告：中东冲突快速冲击化肥供应链，全球粮价面临上涨风险

周杰伦又在复刻周杰伦

半导体设备接过存储“泼天富贵”？AI叠加工艺升级红利，行业订单能见度提升

阿里上汽孵化的独角兽二闯港股：三年累亏36亿，核心业务计提18亿

青岛啤酒交卷：利润三连增，市场为何不买账？

金价狂飙还能亏？“黄金界爱马仕”狂卖300亿，有人连汤都没喝上

中信银行的难言之隐

太多人想教老铺黄金怎么做生意了

Anthropic 砸开 IPO 大门：3800 亿估值，能改写 AI 寡头政治

股债金三线溃败！中东战火下市场步入“无处可躲”境地？