当前位置: 首页 » 资讯 » 新科技 » 正文

小米发布MiMo-V2.5-TTS/ASR语音大模型:通过自然语言指令调度声音表现

IP属地 中国·北京 编辑:陈丽 凤凰网科技 时间:2026-04-26 09:45:34

4月24日,继前一日MiMo-V2.5系列大模型公测后,小米技术团队今日再次加码,正式发布MiMo-V2.5-TTS系列与MiMo-V2.5-ASR,补齐语音输入与输出全链路。

其中,TTS系列包含三款模型,均支持通过自然语言指令精细调度声音表现。MiMo-V2.5-TTS:内置多款精品音色,开箱即用,支持语速、情绪控制。MiMo-V2.5-TTS-VoiceDesign:支持一句话从零生成全新音色,无需参考音频。MiMo-V2.5-TTS-VoiceClone:数秒参考音频即可高保真复刻目标音色,并保留原有风格指令控制能力。官方演示显示,模型能遵循“尖锐刻薄、狐假虎威”等复杂指令,并支持在文本中插入音频标签进行精细化控制。

作为听觉基座,MiMo-V2.5-ASR今日正式开源(包括模型权重与代码)。该模型面向复杂真实场景,支持吴语、粤语等中文方言,以及中英文混说、强噪音、多人对话等场景,并原生输出标点符号,转写结果即拿即用。

目前,TTS系列已在MiMo Studio开放快速体验,ASR代码与权重可在GitHub和HuggingFace获取。小米预告,下一步将向通用音频生成(音效、音乐)及更强的上下文理解能力扩展。

标签: 指令 模型 音频 音色 调度 声音 场景 小米 中文 代码 标签 标点符号 链路 语速 方言 语音输入 情绪 精品 粤语 吴语 权重 高保真 目标 对话 音效 原生 官方 技术 团队 中英文 精细化

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。