当前位置：首页 » 资讯 » 新科技 » 正文

小米发布ZipVoice系列语音合成模型打破AI播客技术瓶颈

IP属地中国·北京 编辑：郑浩凤凰网科技 时间：2025-09-12 12:09:35

9月12日，小米技术发布消息，近日，小米集团AI实验室新一代Kaldi团队发布了基于Flow Matching架构的ZipVoice系列语音合成（TTS）模型——ZipVoice（零样本单说话人语音合成模型）与ZipVoice-Dialog（零样本对话语音合成模型）。
ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点，ZipVoice-Dialog则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈。
实验结果表明，ZipVoice和ZipVoice-Distill在具备更小参数量和更快推理速度的同时，在三个客观指标，即说话人相似度（SIM-o）、词错误率（WER）和UTMOS，以及两个主观指标（CMOS、SMOS）上都极具竞争力，达到了零样本语音合成模型的SOTA性能水平，同时显著减少了模型参数量，加快了推理速度。
对话语音合成模型可以根据对话文本合成双人对话语音，是AI播客等应用的核心技术，得到了业界的广泛关注。相对单说话人语音合成，对话语音合成需要在一句话中合成不同的说话人音色，且需实现自然且准确的说话人切换，因此更有挑战性。

标签： 语音合成 模型 zipvoice 小米 cmos ai dialog 语音

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

专题

小米发布ZipVoice系列语音合成模型打破AI播客技术瓶颈

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

小米发布ZipVoice系列语音合成模型 打破AI播客技术瓶颈

同类资讯

小米发布ZipVoice系列语音合成模型打破AI播客技术瓶颈