![]()
这项由SenseTime Research(商汤科技研究院)的多位研究人员共同完成的研究发表于2025年1月,论文编号为arXiv:2510.13747v1,有兴趣深入了解的读者可以通过该编号查询完整论文。这个名为InteractiveOmni的研究团队包括了来自商汤科技的多名研究人员,他们联手打造了一个真正意义上的"全能语音助手"。
要理解这项研究的重要性,我们不妨回到最基本的问题:人类是如何交流的?当你和朋友聊天时,你不仅在听他说话,还在观察他的表情,回想之前的对话内容,然后用自己的语调和情感回应。这种多感官、有记忆、有情感的交流方式,正是人类智慧的体现。然而,现有的AI助手往往只能做到其中的一两样——要么只能看图片,要么只能听语音,更别提记住长时间的对话历史了。
商汤科技的研究团队意识到,如果要创造真正智能的AI助手,就必须让它像人类一样具备全方位的感知和交流能力。于是,他们开发了InteractiveOmni,这是一个能够同时处理文字、图片、音频和视频的统一模型,更重要的是,它还能进行多轮对话并保持长期记忆。这就好比培养了一个既有敏锐五感,又有良好记忆力的智能伙伴。
这项研究的突破性在于它解决了当前AI领域的一个根本挑战:如何让机器真正理解和参与人类式的自然交流。过去的AI系统往往是"专科医生"——视觉模型只能看图,语音模型只能听声音,语言模型只能处理文字。而InteractiveOmni则像是一个"全科医生",它能同时运用多种感官信息,进行连贯的多轮对话,甚至能记住几轮之前提到的图片内容。
更令人惊讶的是,研究团队开发了两个版本的模型:InteractiveOmni-4B和InteractiveOmni-8B,其中较小的4B版本在保持出色性能的同时,参数量只有一些竞争对手的一半左右。这意味着普通用户也有机会在自己的设备上体验这种先进的AI交流方式,而不需要依赖昂贵的云端服务器。
一、从"专科医生"到"全科专家"——InteractiveOmni的整体设计思路
传统的AI系统就像医院里的专科医生,每个医生只精通一个领域。眼科医生只看眼睛,心脏科医生只看心脏,他们各自在自己的专业领域内表现出色,但缺乏全局视野。现有的AI模型也是如此:视觉模型擅长识别图片中的物体,语音模型能够准确转录说话内容,语言模型会写文章和回答问题,但它们很难协同工作。
InteractiveOmni的设计理念完全不同,它更像是一位经验丰富的全科医生,能够综合运用各种信息来做出判断。当用户向它展示一张照片并询问相关问题时,它不仅能看懂图片内容,还能结合之前的对话记录,用自然的语音回应,甚至在语音中加入适当的情感色彩。
这种"全科专家"的设计带来了前所未有的交互体验。比如说,你可以先给它看一张风景照,然后在几轮对话后询问"刚才那张照片里的天气怎么样?"即使中间穿插了其他话题,InteractiveOmni也能准确回忆起之前的图片内容并给出恰当回答。这种能力在现实应用中极其重要——想象一下,当你需要一个AI助手帮你整理一天的照片和录音时,这种跨模态的记忆和理解能力就显得格外珍贵。
研究团队在设计时采用了统一的架构框架,将视觉编码器、音频编码器、大语言模型和语音解码器巧妙地整合在一起。这就好比在一个人的大脑中,视觉皮层、听觉皮层、语言中枢和运动皮层都能无缝协作,共同处理复杂的信息。这种统一架构的好处不仅在于功能的完整性,更重要的是不同模态之间能够深度融合,产生真正的"理解"而非简单的信息拼凑。
为了验证InteractiveOmni的实际效果,研究团队还专门构建了两个全新的评估基准:多模态多轮记忆基准(MMMB)和多轮语音交互基准(MSIB)。这些基准就像是专门为"全科医生"设计的综合考试,不仅要测试单项技能,更要考验在复杂情境下的综合应用能力。
二、记忆力超群的AI伙伴——多轮对话中的长期记忆能力
人类交流的一个重要特征就是我们能够记住对话的历史,并在后续交流中引用之前的内容。当朋友向你展示度假照片后,即使过了半小时,你仍然可能会问"刚才那个海滩在哪里?"这种记忆能力对于自然交流至关重要,但对AI系统来说却是一个巨大挑战。
InteractiveOmni在这方面展现出了令人印象深刻的能力。研究团队专门设计了一个多模态多轮记忆基准来测试这种能力。在这个基准中,AI需要在长达15轮的对话中记住之前出现的图片和文字信息,然后在最后一轮准确回答需要综合历史信息的问题。
这种测试的难度可以用一个生活场景来理解:假设你正在和朋友规划一次旅行,在对话开始时你们看了几张不同城市的照片,讨论了各自的特色。然后你们又聊了餐厅推荐、交通方式、住宿选择等话题。最后,朋友问你"我们最开始看的那个有古城墙的城市,你觉得适合几月份去?"这个问题需要你回忆起对话开始时的图片内容,并结合中间讨论过的季节信息来回答。
在实际测试中,InteractiveOmni-8B在这类复杂记忆任务上的表现达到了58.17分(满分100分),不仅超越了所有开源模型,甚至接近了商业级的Gemini-2.5-Flash模型(60.84分)的水平。更令人惊喜的是,参数量只有4B的较小版本也达到了52.47分,远超其他同类开源模型。
这种记忆能力的背后是精心设计的训练策略。研究团队构建了大量多轮对话数据,其中包括需要回忆历史图片、历史文本,以及综合历史图片和文本的复杂问题。通过这种训练,InteractiveOmni学会了如何在对话过程中维持一个连贯的"记忆线程",就像人类在交流时会在脑海中保持对话的完整脉络一样。
特别值得一提的是,即使在记忆负担较重的情况下,比如需要回忆4轮之前的内容时,InteractiveOmni-4B仍能保持40%的准确率,这一表现可以媲美顶级的商业模型。这意味着在实际应用中,用户可以进行真正自然的长时间对话,而不用担心AI"忘记"之前的内容。
三、会说话的全才——端到端的语音交互革新
语音交互是InteractiveOmni最引人注目的特色之一。传统的语音AI系统通常采用"接力赛"的工作方式:先用语音识别系统将声音转成文字,然后用语言模型处理文字内容,最后用语音合成系统将文字回复转成语音。这种方式就像三个人在传话,不仅速度慢,还容易在传递过程中丢失细微的情感和语调信息。
InteractiveOmni采用了完全不同的"一条龙"服务方式。当用户说话时,系统直接处理语音信号,理解其中的内容和情感,然后直接生成带有适当情感色彩的回复语音。这个过程就像一个人在自然对话,中间没有任何"翻译"环节,因此能够保持更加自然和流畅的交互体验。
为了实现这种端到端的语音交互,研究团队设计了一个创新的流式语音生成机制。在生成回复时,系统每产生5个文字token就会同步生成25个语音token,这样可以实现接近实时的语音输出。这种设计很像同声传译员的工作方式——不需要等待完整句子结束就开始翻译,从而大大减少了响应延迟。
在语音质量方面,InteractiveOmni展现出了出色的表现。在多轮语音交互基准(MSIB)的测试中,研究团队从六个维度评估了模型的语音交互能力:基础对话能力、情感表达能力、语速控制能力、角色扮演能力、创意表达能力和指令遵循能力。
InteractiveOmni-4B在内容质量方面达到了3.84分(5分满分),在语音质量方面达到了4.05分,综合评分3.95分,显著超越了现有的开源语音模型如Qwen2.5-Omni-7B(3.58分)和Kimi-Audio(3.65分)。更大的8B版本表现更加出色,综合评分达到了4.03分,在所有测试维度中都取得了领先成绩。
特别令人印象深刻的是,InteractiveOmni不仅能够生成自然流畅的语音,还能根据对话内容和用户指令调整语音的情感色彩。比如在角色扮演任务中,它能够模仿不同角色的说话方式;在情感表达任务中,它能够根据情境传达适当的情感,让整个对话体验更加生动和人性化。
四、全方位感知的智能大脑——图像、视频、音频的统一理解
InteractiveOmni的另一项核心能力是对多种感官信息的统一理解和处理。就像人类的大脑能够同时处理视觉、听觉和语言信息一样,InteractiveOmni也能够在统一的框架内处理图片、视频、音频和文本等不同类型的信息。
在视觉理解方面,InteractiveOmni采用了InternViT-300M作为视觉编码器,能够处理各种分辨率的图片和长视频内容。为了提高效率,系统使用了动态分辨率策略,根据图片的实际尺寸和宽高比将其分割成448×448像素的小块进行处理。这就好比用放大镜逐块仔细观察一幅大画,既能看清细节,又能把握整体。
音频理解方面,InteractiveOmni使用了经过广泛验证的Whisper-large-v3模型作为音频编码器。它能够处理16kHz的音频信号,将原始声波转换成128通道的梅尔频谱图,然后进一步提取语义特征。这个过程类似于音乐家如何理解乐曲——不仅听到声音的高低长短,还能理解其中的情感和含义。
更重要的是,InteractiveOmni实现了真正的多模态融合。当用户同时提供图片和语音输入时,系统不是简单地分别处理这两种信息然后拼接结果,而是在深层特征层面进行融合,产生统一的理解。这就像人类在看电影时,我们不会分别处理画面和声音,而是将它们融合成完整的观影体验。
在各种基准测试中,InteractiveOmni都展现出了优秀的多模态理解能力。在图像理解任务上,InteractiveOmni-8B在多个基准上的平均得分达到73.2,超越了许多专门的视觉语言模型。在视频理解任务上,它也获得了67.1的平均分,显示出强大的视频内容分析能力。
特别值得一提的是,在音频理解任务中,InteractiveOmni-4B在MMAU基准上获得了72.00分,超越了所有同等规模的开源模型。这个成绩特别令人印象深刻,因为它表明即使是较小的4B版本也具备了超越大型专业模型的音频理解能力。
五、数据驱动的训练策略——如何培养一个全能助手
要培养一个真正全能的AI助手,就像培养一个多才多艺的学生一样,需要精心设计的教育方案和丰富多样的学习材料。InteractiveOmni的训练过程分为两个主要阶段:预训练阶段和后训练阶段,就像学生先要掌握基础知识,然后再进行专业技能训练。
在预训练阶段,研究团队为InteractiveOmni准备了极其丰富的学习材料。仅图像数据就包含了约1200万对图像-文本配对,涵盖了光学字符识别、文档理解、常识问答、科学推理、数学计算、知识问答和视觉感知等七个主要领域。这就好比让学生阅读各种类型的书籍,从科学教材到文学作品,从历史资料到艺术画册,确保知识面的广度和深度。
视频数据方面,团队收集了500万个视频-文本配对,包括短标题、详细描述、视频问答和视频时序定位等不同任务类型。这些数据让InteractiveOmni学会了理解动态图像内容,就像学生通过观看纪录片和电影来理解世界的运动和变化。
音频训练数据更是规模惊人,总计超过24万小时,相当于连续播放27年!其中包括18.7万小时的语音识别数据、1万多小时的音频问答数据、近7千小时的音频描述数据,以及1.6万小时的音乐问答数据。这种大规模的音频训练让InteractiveOmni不仅能听懂人类语言,还能理解环境声音和音乐内容。
后训练阶段则更加注重实际应用能力的培养。研究团队特别构建了多轮对话数据,这些数据的设计非常巧妙。在每轮对话中,问题被分为五种类型:与图像无关的纯文本问题、需要分析当前图像的问题、需要回忆历史图像的问题、需要回忆历史文本的问题,以及需要综合历史图像和文本信息的复杂问题。通过这种渐进式的训练,InteractiveOmni逐步掌握了复杂的多轮对话能力。
为了确保语音交互的自然性,研究团队还专门构建了大约2.2万小时的端到端语音对话数据。这些数据不仅包括基础的问答对话,还包括带有情感控制、语速控制和角色扮演的高级对话形式。这就像让学生不仅学会标准的演讲,还要学会在不同场合用不同的语调和风格与人交流。
训练策略上,团队采用了多阶段渐进式训练。首先用视觉-文本数据训练视觉理解能力,然后加入音频-文本数据训练音频理解能力,最后用混合的多模态数据进行综合训练。这种策略确保了各个模态之间的良好对齐,避免了不同感官信息之间的冲突。
六、严格的能力测试——从实验室到现实应用
为了全面评估InteractiveOmni的实际能力,研究团队设计了一套极其严格的测试体系,就像为这个全能助手设计了一场综合性的"高考"。这套测试不仅要检验模型在各个单项任务上的表现,更重要的是要验证它在复杂真实场景下的综合应用能力。
多模态多轮记忆基准(MMMB)可能是最具挑战性的测试之一。这个基准包含300组对话,每组对话最多包含15轮交互。在测试中,AI需要逐步接收新的文本和图像信息,然后在最后一轮回答需要综合历史信息的复杂问题。这就像是一个持续的记忆游戏,不仅要记住之前看到的所有内容,还要在需要时准确提取和运用这些信息。
测试结果显示,InteractiveOmni-8B在这个极具挑战性的基准上获得了58.17分,几乎达到了商业级模型Gemini-2.5-Flash的水平(60.84分)。更令人惊喜的是,参数量只有一半的InteractiveOmni-4B也达到了52.47分,远超其他开源模型。这个成绩表明,InteractiveOmni确实具备了接近人类水平的多轮对话记忆能力。
在多轮语音交互基准(MSIB)上,InteractiveOmni同样表现出色。这个基准从六个维度评估语音交互能力:基础对话、情感表达、语速控制、角色扮演、创意表达和指令遵循。测试采用了既有自动评估也有人工评估的双重验证机制,确保评估结果的可靠性。
人工评估结果显示,专业评估员对InteractiveOmni生成的语音给出了很高的评价。在基础对话能力方面,InteractiveOmni明显优于现有的开源模型;在情感表达方面,它能够根据对话内容自然地调节语音的情感色彩;在角色扮演任务中,它展现出了令人印象深刻的适应能力,能够模仿不同角色的说话方式和风格。
除了这些专门的综合测试外,InteractiveOmni在各种传统基准上也展现出了优秀的性能。在图像理解任务中,它在HallusionBench上获得了61.3分的最高分,超越了所有其他开源模型。在音频理解的多个基准上,InteractiveOmni-4B的表现经常超越参数量更大的专业模型,显示出了出色的参数效率。
语音生成质量的测试结果同样令人满意。在Seed-TTS基准的中文测试中,InteractiveOmni-4B的词错误率仅为1.37%,接近专业语音合成系统的水平。在更具挑战性的EmergentTTS-eval基准中,它在情感表达、复杂发音和问句处理等多个子任务上都取得了最优成绩。
这些全方位的测试结果证明,InteractiveOmni不仅在单项任务上表现优秀,更重要的是在复杂的多模态交互场景中展现出了真正的智能。它就像一个经过严格训练的全科医生,不仅在各个专科领域都有扎实的基础,更能够综合运用多种专业知识来解决复杂的实际问题。
七、技术创新的背后——突破传统AI的局限性
InteractiveOmni的成功并不是偶然的,它代表了AI技术发展的一个重要转折点。过去的AI系统大多是"专才",每个系统只能处理特定类型的输入和输出。而InteractiveOmni则展示了如何构建真正的"通才"AI系统,这种转变背后蕴含着深刻的技术创新。
传统的多模态AI系统通常采用"模块化"设计,就像一个工厂的流水线,每个工位负责特定的加工步骤。视觉模块负责处理图像,音频模块负责处理声音,语言模块负责生成文本,最后由语音合成模块生成声音。这种设计的问题在于各个模块之间缺乏深度交流,就像流水线上的工人只管自己的工位,不了解整个产品的全貌。
InteractiveOmni采用了完全不同的"整体化"设计思路。所有的感官输入都被转换为统一的表示形式,在同一个大脑中进行处理和理解。这就像一个经验丰富的厨师,能够同时调配视觉、嗅觉、味觉等多种感官信息来判断菜肴的品质,而不是分别依靠不同的专家来评估每个方面。
这种统一架构带来的最大好处是真正的跨模态理解。当用户展示一张图片并用语音提问时,InteractiveOmni不是简单地将图像识别结果和语音识别结果拼接在一起,而是在深层语义层面理解图像内容和语音问题之间的关联。这种深度融合使得模型能够回答一些需要复杂推理的跨模态问题。
在语音生成方面,InteractiveOmni的创新在于实现了真正的端到端处理。传统系统需要先生成文本,再将文本转换为语音,这个过程中往往会丢失语调、情感等重要信息。InteractiveOmni则能够直接从理解到语音生成,保持了更多的语义和情感信息,使得生成的语音更加自然和富有表现力。
流式生成技术是另一个重要创新。InteractiveOmni采用了5:25的文本token与语音token交替生成策略,这意味着系统不需要等待完整回答生成完毕就可以开始输出语音。这种设计大大减少了响应延迟,使得人机对话更加流畅自然,接近真实的人类对话体验。
模型的参数效率也值得特别关注。InteractiveOmni-4B仅用一半的参数量就达到了与更大模型相当的性能,这背后体现的是训练策略和架构设计的优化。通过精心设计的多阶段训练和高质量的数据筛选,研究团队实现了"用更少资源做更多事情"的目标,这对于AI技术的普及具有重要意义。
八、面向未来的智能交互——现实意义与发展前景
InteractiveOmni的出现标志着我们正在迈向一个全新的人机交互时代。在这个时代,AI不再是冷冰冰的工具,而是能够真正理解和参与人类交流的智能伙伴。这种转变将对我们的日常生活、工作方式和学习模式产生深远影响。
在教育领域,InteractiveOmni这样的AI助手可能会彻底改变传统的教学模式。学生可以通过自然的语音对话向AI提问,展示作业图片获得指导,甚至进行角色扮演练习语言技能。AI助手能够记住学生的学习进度和困难点,提供个性化的教学建议。这就像为每个学生配备了一个既博学又耐心的私人导师。
医疗健康领域也将迎来新的机遇。患者可以向AI助手描述症状,展示相关图片,AI能够综合这些信息提供初步建议。更重要的是,AI能够记住患者的历史信息,跟踪病情发展,为医生提供更完整的诊断参考。这种能力对于慢性病管理和远程医疗特别有价值。
在商业服务领域,InteractiveOmni的多模态交互能力可以大大提升客户服务体验。客户可以通过语音描述问题,同时发送产品照片,AI客服能够综合理解并提供精准的解决方案。这种服务方式比传统的文字客服更加自然高效,能够处理更复杂的客户需求。
对于内容创作者来说,InteractiveOmni提供了全新的创作辅助可能。创作者可以通过语音头脑风暴,展示参考图片,AI能够理解创作意图并提供灵感建议。在播客、视频制作等领域,AI甚至可以参与到创作过程中,提供配音、解说等支持。
然而,这项技术的发展也带来了新的挑战和思考。如何确保AI生成内容的真实性和可靠性?如何平衡AI能力的提升与人类工作机会的保护?如何处理AI在长期交互中积累的个人信息?这些问题都需要技术开发者、政策制定者和社会各界共同面对和解决。
从技术发展的角度来看,InteractiveOmni代表的全模态AI助手还有巨大的改进空间。未来的版本可能会整合更多感官信息,比如触觉、嗅觉等,实现更全面的环境感知。记忆能力也可能进一步扩展,从对话级别的短期记忆发展到跨会话的长期记忆,让AI助手真正成为用户的长期伙伴。
研究团队将InteractiveOmni开源的决定具有重要意义。这意味着全球的研究者和开发者都可以在此基础上继续创新,加速整个领域的发展进步。开源模式也有助于技术的民主化,让更多人能够接触和使用先进的AI技术,而不是仅限于少数大公司的产品。
结语
说到底,InteractiveOmni的意义远不止于技术本身的突破。它代表了我们对于理想人机交互的一次重要探索——让机器真正理解人类的多样化表达方式,记住我们的对话历史,用自然的语音与我们交流。这种"有温度"的AI交互体验,可能会逐渐改变我们与技术相处的方式。
商汤科技研究团队的这项工作最珍贵的地方在于,它不仅实现了技术上的创新,还保持了开源开放的态度。InteractiveOmni-4B仅用4B参数就达到了接近7B模型的性能,这种效率提升让普通用户也有机会体验先进的AI交互技术。当技术不再是少数人的专利,而是能够惠及更多人的工具时,它才真正具备了改变世界的力量。
未来几年,我们很可能会看到越来越多类似InteractiveOmni的AI助手走入日常生活。它们可能会成为我们学习的伙伴、工作的助手、生活的顾问。而这一切的起点,正是像商汤科技这样的研究团队在实验室里的每一次尝试和突破。对于关心AI发展的朋友来说,这项研究无疑为我们展示了一个充满可能性的未来图景。
Q&A
Q1:InteractiveOmni和现有的语音助手有什么区别?
A:InteractiveOmni最大的区别是它能同时处理图像、视频、音频和文字,并且具备长期记忆能力。现有的语音助手通常只能处理语音或文字,而InteractiveOmni可以记住几轮对话前的图片内容,进行真正的多模态交流。
Q2:InteractiveOmni-4B和8B版本的性能差异大吗?
A:虽然8B版本整体性能更优秀,但4B版本的表现已经非常出色,在很多任务上接近甚至超越了参数量更大的竞争对手。4B版本保持了8B版本97%的性能,但参数量只有一半,更适合在资源有限的设备上运行。
Q3:普通用户什么时候能体验到InteractiveOmni技术?
A:由于商汤科技采用了开源策略,开发者现在就可以通过GitHub获取InteractiveOmni的代码和模型。对于普通用户来说,随着技术的进一步优化和产品化,预计在不久的将来就能在各种应用和设备中体验到类似的多模态AI交互功能。





京公网安备 11011402013531号