当前位置：首页 » 资讯 » 新科技 » 正文

小米发布MiMo-V2.5-TTS/ASR语音大模型：通过自然语言指令调度声音表现

IP属地中国·北京 编辑：陈丽凤凰网科技 时间：2026-04-26 09:45:34

4月24日，继前一日MiMo-V2.5系列大模型公测后，小米技术团队今日再次加码，正式发布MiMo-V2.5-TTS系列与MiMo-V2.5-ASR，补齐语音输入与输出全链路。
其中，TTS系列包含三款模型，均支持通过自然语言指令精细调度声音表现。MiMo-V2.5-TTS：内置多款精品音色，开箱即用，支持语速、情绪控制。MiMo-V2.5-TTS-VoiceDesign：支持一句话从零生成全新音色，无需参考音频。MiMo-V2.5-TTS-VoiceClone：数秒参考音频即可高保真复刻目标音色，并保留原有风格指令控制能力。官方演示显示，模型能遵循“尖锐刻薄、狐假虎威”等复杂指令，并支持在文本中插入音频标签进行精细化控制。
作为听觉基座，MiMo-V2.5-ASR今日正式开源（包括模型权重与代码）。该模型面向复杂真实场景，支持吴语、粤语等中文方言，以及中英文混说、强噪音、多人对话等场景，并原生输出标点符号，转写结果即拿即用。
目前，TTS系列已在MiMo Studio开放快速体验，ASR代码与权重可在GitHub和HuggingFace获取。小米预告，下一步将向通用音频生成（音效、音乐）及更强的上下文理解能力扩展。

标签：指令模型音频音色调度声音场景小米中文代码标签 标点符号 链路语速方言 语音输入 情绪精品粤语吴语权重 高保真 目标对话音效原生官方技术团队 中英文 精细化

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

DeepSeek又更新了，这次梁文锋没放大招｜进击的独角兽

小米VS华为！澎程新车对标问界，智界RX盯上小米YU7

出走米哈游1000多天后，蔡浩宇的AI远征“撞墙”

华为深圳场景化解决方案发布，破解“模型强、场景弱”难题

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

全站最新

DeepSeek又更新了，这次梁文锋没放大招｜进击的独角兽

小米VS华为！澎程新车对标问界，智界RX盯上小米YU7

出走米哈游1000多天后，蔡浩宇的AI远征“撞墙”

华为深圳场景化解决方案发布，破解“模型强、场景弱”难题

热门推荐

美的等入股钧舵机器人

DeepSeek又更新了，这次梁文锋没放大招｜进击的独角兽

小米VS华为！澎程新车对标问界，智界RX盯上小米YU7

出走米哈游1000多天后，蔡浩宇的AI远征“撞墙”

华为深圳场景化解决方案发布，破解“模型强、场景弱”难题

字节跳动在中卫成立新科技公司注册资本22亿

字节跳动在中卫成立新科技公司注册资本22亿

SpaceX财报前夕：轨道AI数据中心成估值关键，技术挑战与前景几何？

小米“食言”入局增程赛道，澎程系列SUV能否在激烈竞争中突围？

小米米家智能茶吧机台面式开启预售，双区出水精准控温，599元享便捷饮水煮茶体验

红杉资本深度对话：Transformer架构遇瓶颈，持续学习新架构或成AGI关键

MiniMax H3开源来袭：价格优势叠加技术突破，视频生成赛道迎新变局？

《2026 Q2热搜品牌TOP50》揭晓：自助餐、科技消费等新风口崛起，本土品牌发力

字节跳动Seedance 2.5发布：视频时长延长至30秒，多素材创作能力大幅提升

字节跳动Seedance 2.5发布：长叙事多模态编辑升级，赋能视频创作新体验