当前位置: 首页 » 资讯 » 新科技 » 正文

小米发布ZipVoice系列语音合成模型 打破AI播客技术瓶颈

IP属地 中国·北京 编辑:郑浩 凤凰网科技 时间:2025-09-12 12:09:35

9月12日,小米技术发布消息,近日,小米集团AI实验室新一代Kaldi团队发布了基于Flow Matching架构的ZipVoice系列语音合成(TTS)模型——ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)。

ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,ZipVoice-Dialog则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈。

实验结果表明,ZipVoice和ZipVoice-Distill在具备更小参数量和更快推理速度的同时,在三个客观指标,即说话人相似度(SIM-o)、词错误率(WER)和UTMOS,以及两个主观指标(CMOS、SMOS)上都极具竞争力,达到了零样本语音合成模型的SOTA性能水平,同时显著减少了模型参数量,加快了推理速度。

对话语音合成模型可以根据对话文本合成双人对话语音,是AI播客等应用的核心技术,得到了业界的广泛关注。相对单说话人语音合成,对话语音合成需要在一句话中合成不同的说话人音色,且需实现自然且准确的说话人切换,因此更有挑战性。

标签: 语音合成 模型 zipvoice 小米 cmos ai dialog 语音

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。