当你和朋友聊天时,你们能够自然地听完对方讲述一个复杂的故事,然后用自己的声音回应。对于人工智能来说,这样看似简单的能力却异常困难。不过,香港中文大学、香港科技大学和SmartMore公司的研究团队在2025年9月发表的一项研究中,成功开发出了一个名为MGM-Omni的AI系统,它能够理解超过60分钟的语音内容,并用个性化的声音生成超过10分钟的连贯回应。这项研究发表在arXiv预印本服务器上,编号为arXiv:2509.25131v1,感兴趣的读者可以通过该编号查询完整论文。
传统的AI助手就像一个只会背诵标准答案的机器人,它们要么只能处理很短的语音输入,要么生成的语音听起来机械死板,毫无个性。更糟糕的是,当需要处理长时间的对话或生成较长的回应时,这些系统往往会"掉链子"——要么理解错误,要么说话变得断断续续,就像一台老旧的收音机信号不稳定一样。
MGM-Omni的出现彻底改变了这种局面。这个系统采用了一种全新的"大脑-嘴巴"双轨设计理念,就像人类的思考和说话是两个既独立又协调的过程一样。研究团队用大约40万小时的音频数据训练了这个系统,相当于让它听了45年的连续音频内容。更令人惊喜的是,它还具备零样本语音克隆能力,只需要听到某个人的语音样本,就能学会用那个人的声音特色说话。
这项研究的核心突破在于解决了音频理解和生成中的三个关键难题。首先是长时间音频理解的问题,传统系统就像一个记性不好的人,听了前面的内容就忘了后面说什么,而MGM-Omni则能够保持长时间的记忆连贯性。其次是文本和语音之间的对齐问题,这就好比一个人想说"你好"两个字,但嘴巴却需要发出很多个音素才能完整表达,MGM-Omni通过创新的分块并行解码技术解决了这个时间不匹配的难题。最后是长时间生成中的音色一致性问题,确保AI在长时间说话过程中声音特征不会发生漂移变化。
一、革命性的双轨架构设计
MGM-Omni最引人注目的创新之处在于其独特的双轨架构设计。想象一下人类大脑的工作方式:当你听到朋友讲述一个复杂故事时,你的大脑负责理解和思考,而当你需要回应时,你的发声器官负责将思考结果转化为语音。MGM-Omni正是模仿了这种自然分工。
系统的"大脑"部分是一个多模态大语言模型(MLLM),它基于当前最先进的Qwen2.5-VL模型构建。这个"大脑"不仅能处理文字,还能理解图片、视频和音频信息,就像一个博学的学者能够同时阅读文献、观看实验视频、聆听讲座录音一样。当面对复杂的多模态输入时,这个"大脑"能够综合分析所有信息,形成准确的理解和判断。
系统的"嘴巴"部分则是一个专门的语音生成模型(SpeechLM),它的职责就是将"大脑"产生的文字想法转化为自然流畅的语音。这种分工带来了巨大的优势:理解和生成可以并行进行,大大提高了响应速度;同时,专门的语音生成模块能够更好地控制音色、语调和情感表达。
这种双轨设计的巧妙之处在于,它避免了传统级联系统的弊端。传统系统就像一条流水线,前一个环节出错会影响后续所有步骤,而MGM-Omni的双轨设计则像两个专业团队的协作,各自专注于自己擅长的领域,然后通过精心设计的接口进行高效沟通。
二、突破性的长音频理解能力
在音频理解方面,MGM-Omni采用了一种类似人类双耳协作的双重编码器设计。研究团队发现,单一的音频编码器就像只用一只耳朵听音乐,虽然能够捕捉基本信息,但会错失很多细节和层次。
第一个编码器基于Qwen2-Audio模型,它擅长捕捉声音的整体特征,就像一个有经验的音乐制作人能够敏锐地识别音乐中的各种乐器和旋律走向。第二个编码器则是专门针对中文语音优化的Belle-Whisper-large-v3,它就像一个精通汉语的语言学家,特别善于理解中文语音的细微差别和语言特色。
两个编码器的协作过程采用了信息挖掘技术,这个过程就像两个专家在交换意见。主编码器提出问题(作为查询),辅助编码器提供相关线索(作为键值对),通过注意力机制将最重要的信息筛选出来。这种设计让系统能够同时获得声学特征和语义理解,形成更加全面和准确的音频表示。
为了处理不同长度的音频输入,研究团队还开发了一套巧妙的训练策略。传统的训练方法就像用同一个教室教授小学生和大学生,效率很低。MGM-Omni的方法则像分层教学:将相似长度的音频分组处理,短音频用大批次快速训练,长音频用小批次精细训练。这种动态调整策略不仅提高了训练效率,还确保了系统对各种长度音频的适应能力。
通过这种设计,MGM-Omni能够处理超过60分钟的连续音频输入。在研究团队进行的"大海捞针"测试中,系统面对长达75分钟的音频内容,仍能准确找到其中的关键信息,成功率达到94%,远超其他竞争系统的58%成功率。
三、创新的分块并行语音生成技术
语音生成是MGM-Omni的另一个技术突破点。传统的语音合成系统面临着一个根本性的挑战:文字和语音之间存在巨大的时间尺度差异。一个简单的比喻是,如果把一个汉字比作一个大箱子,那么对应的语音就像是箱子里的二十五个小球,系统需要精确地将每个小球按照正确的顺序和时机投放出来。
MGM-Omni通过分块并行解码技术解决了这个难题。这个方法就像熟练的厨师同时处理多道菜一样,将长文本分成若干个小段,每个小段独立处理,但保持整体的协调性。在每个文本块的处理过程中,系统采用延迟启动策略:先处理前四个文字标记,然后才开始生成对应的语音标记,这样确保了文字和语音之间的精确对齐。
并行解码技术进一步提升了生成效率。传统系统就像一个只会逐字逐句说话的人,而MGM-Omni则像一个能够同时组织多个层面表达的演说家。系统扩展了词汇表,使得每个解码步骤能够同时生成一个文字标记和四个语音标记。这种设计将推理速度提升了3倍,同时还改善了长序列生成中的音色一致性。
语音生成模块基于Qwen3语言模型,配备了专门设计的TTS适配器。这个适配器就像一个专业的配音演员训练营,它学会了如何将文字意图转化为自然的语音表达。通过流匹配模型将语音标记转换为梅尔频谱图,最后通过HiFi-GAN声码器生成高质量的音频波形。
四、零样本语音克隆的技术实现
MGM-Omni最令人印象深刻的功能之一是零样本语音克隆能力。这意味着只需要提供一小段某个人的语音样本,系统就能学会用那个人的声音特色说话,就像一个天才的模仿者只需要听几句话就能完美复制别人的说话方式。
为了实现这个功能,研究团队构建了一个庞大的训练数据集,包含约30万小时的原始语音数据和10万小时的合成语音数据。这些数据涵盖了中英文的多种语音环境和说话风格,确保系统能够理解和复制各种不同的声音特征。
训练过程分为两个阶段,就像培养一个配音演员的过程。预训练阶段相当于基础发声训练,系统学习如何将文字转化为基本的语音结构,这个阶段只更新TTS适配器的参数,保持语言模型的稳定性。后训练阶段则像是表演技巧训练,系统学习如何模仿不同的声音风格和情感表达,这个阶段会同时微调语言模型和适配器。
语音标记化采用了CosyVoice2的有限标量量化(FSQ)技术,这种方法能够以25Hz的频率对语音进行编码,相当于每秒生成25个语音标记。研究团队发现,虽然并行解码通常与残差向量量化(RVQ)标记器配合使用,但与FSQ标记器结合同样能够取得优秀的效果,而且还能进一步缩短文字和语音标记之间的距离。
五、全面的性能评估与对比分析
为了全面评估MGM-Omni的性能,研究团队进行了大量的对比实验。在音频理解任务上,系统在LibriSpeech、CommonVoice和AISHELL等标准测试集上均取得了优异成绩。特别是在中文语音识别任务上,MGM-Omni在CommonVoice数据集上达到了4.0%的字错误率,在AISHELL数据集上达到了1.8%的字错误率,超越了多个领先的音频和全模态模型。
在通用音频理解评估中,系统在AIR-Bench基准测试中表现突出,这个测试覆盖了语音、声音、音乐和混合音频等多种类型。MGM-Omni在所有类别中都取得了6.5分的平均成绩,超过了包括Qwen2.5-Omni在内的多个竞争系统。
长音频理解能力的测试采用了"大海捞针"方法,这就像在一本厚厚的小说中寻找特定的句子。研究团队选择了五种不同类型的长音频材料:学术讲座、日常访谈和新闻广播,每个音频长度都超过60分钟。MGM-Omni在这项测试中展现出了卓越的表现,即使面对长达4500秒(75分钟)的音频输入,仍能保持94%的成功率。
在语音生成方面,研究团队构建了专门的Long-TTS-eval基准测试,这是第一个专门评估长时间语音生成能力的测试集。该测试集包含中英文各类文本,涵盖文学、新闻、知识、演讲、评论和学术论文等六个类别,最长文本达到3277个英文标记,相当于约12分钟的语音内容。
测试结果显示,MGM-Omni在长时间语音生成任务中明显优于其他开源系统。在实时因子(RTF)方面,MGM-Omni达到了0.19,意味着生成1秒的语音只需要0.19秒的计算时间,远快于其他竞争系统。同时,在语音质量方面,系统在中英文长文本生成中的错误率都显著低于对比系统。
六、技术细节的深入剖析
MGM-Omni的成功离不开众多技术细节的精心设计。在音频编码器的选择上,研究团队通过消融实验发现,双编码器设计比单编码器提升了约40%的性能。信息挖掘技术的引入进一步改善了音频理解的准确性,使得系统能够从辅助编码器中提取最相关的语义信息。
分块解码技术的效果同样显著。实验显示,没有分块解码的系统在长文本生成中错误率会急剧上升,而采用分块解码后,错误率大幅下降,证明了这种方法在保持长序列一致性方面的重要作用。
并行解码的规模选择也经过了仔细调优。研究团队测试了不同的并行大小(1、2、4),发现并行大小为4时能够在质量和速度之间取得最佳平衡。虽然更大的并行规模会略微降低音频质量,但速度提升效果显著,将推理速度提升了约3倍。
训练数据的规模虽然相对较少(约40万小时),但通过精心的数据处理和训练策略,MGM-Omni达到了与使用百万甚至千万小时数据的竞争系统相当或更好的性能。这证明了系统架构设计的优越性和训练方法的高效性。
七、实际应用场景与未来展望
MGM-Omni的技术突破为多个实际应用场景打开了新的可能性。在教育领域,系统能够理解长时间的课程录音,并用个性化的声音生成详细的总结和解答。在客服行业,它可以处理复杂的客户询问,提供连贯且个性化的回应。在内容创作方面,系统能够将长篇文章转化为自然流畅的有声内容,而且可以模仿特定的播音员风格。
医疗健康领域也能从这项技术中受益。系统可以理解医生的长时间诊断录音,生成详细的病历摘要,同时还能用患者熟悉的声音播报健康建议,提高医患沟通的效果。
研究团队还开发了在线演示系统,普通用户可以通过网页界面体验MGM-Omni的能力。这个演示系统展示了模型在实时对话中的表现,用户可以上传音频文件或实时对话,体验系统的多模态理解和语音生成能力。
当然,这项技术也面临着一些挑战和限制。长时间音频处理仍然需要大量的计算资源,实时部署在移动设备上还有技术障碍。语音克隆技术虽然强大,但也需要考虑潜在的滥用风险,需要建立相应的检测和防护机制。
未来的发展方向包括进一步提高计算效率,使系统能够在更广泛的设备上部署;增强多语言支持能力,覆盖更多语种;改进情感表达和个性化定制功能,使生成的语音更加自然和贴近人类表达习惯。
研究团队已经将模型代码和演示系统开源,为学术界和产业界的进一步研究和应用奠定了基础。这种开放的态度将有助于推动整个语音AI领域的发展,让更多的研究者和开发者能够在此基础上构建更先进的应用。
总的来说,MGM-Omni代表了语音AI技术的一个重要里程碑。它不仅在技术指标上取得了突破,更重要的是提供了一个全新的设计思路,将多模态理解和语音生成有机结合,为构建更自然、更智能的人机交互系统指明了方向。随着技术的不断完善和应用场景的拓展,我们有理由相信,这种能够"听"懂长篇大论并"说"出个性化回应的AI系统,将在不久的将来成为我们日常生活中不可或缺的智能助手。
Q&A
Q1:MGM-Omni比其他语音AI系统强在哪里?
A:MGM-Omni最大的优势是能处理超过60分钟的长音频输入,并生成超过10分钟的连贯语音回应,还具备零样本语音克隆能力。它采用独特的"大脑-嘴巴"双轨设计,理解和生成可以并行进行,大大提高了响应速度和质量。
Q2:MGM-Omni的语音克隆功能安全吗?会不会被滥用?
A:研究团队开发了零样本语音克隆技术,只需要听到某个人的语音样本就能模仿其声音特色。虽然这项技术很强大,但确实存在滥用风险。研究团队已经意识到这个问题,未来需要建立相应的检测和防护机制来规范使用。
Q3:普通人现在能体验MGM-Omni吗?在哪里可以试用?
A:研究团队已经开发了在线演示系统,普通用户可以通过网页界面体验MGM-Omni的能力。同时,他们还将模型代码开源了,技术开发者可以基于此构建自己的应用。不过目前还主要是研究展示阶段,大规模商用还需要时间。