当前位置: 首页 » 资讯 » 新科技 » 正文

小米开源首个原生端到端语音大模型

IP属地 中国·北京 编辑:钟景轩 鞭牛市 时间:2025-09-19 12:23:08

9月19日,小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,并在预训练观察到明显的“涌现”行为。

据介绍,在通用语音理解及对话等多项标准评测基准中,MiMo-Audio大幅超越了同参数量的开源模型,取得7B最佳性能;在音频理解基准MMAU的标准测试集上,MiMo-Audio超过Google闭源语音模型Gemini-2.5-Flash。

在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio同样超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。