当前位置: 首页 » 资讯 » 新科技 » 正文

​阿里推出新语音模型“百聆”:三秒录音实现多语言与情感切换

IP属地 中国·北京 编辑:陆辰风 Chinaz 时间:2025-12-15 18:24:54

阿里巴巴通义大模型宣布,其 “百聆” 系列语音模型迎来了重大升级,并正式开源。此次更新的两款语音模型,能够在仅需三秒的录音后,实现无缝切换至多达九种语言和十八种方言,包括普通话、粤语、日语、英语等,同时还可以模拟多种情感如开心和愤怒。

在这次升级中,Fun-CosyVoice3模型得到了显著改善。模型的首包延迟降低了50%,大幅提升了中英混说的准确率。此外,模型的音色克隆能力得到了增强,用户只需提供一段三秒以上的录音,便能复刻出相应的音色并合成新语音。此功能的开发使得实时语音助手、直播配音和无障碍阅读等场景变得更加高效和便捷。

Fun-ASR 模型的能力同样得到了提升,噪声环境下的准确率达到了93%。这一模型不仅支持歌词和说唱的识别,还可以进行多语言自由混说,覆盖多种中文方言与口音。为了提升用户体验,流式识别的首字延迟已降低至160毫秒,大幅提升了语音交互的流畅性。

此外,这两款模型均支持本地部署与二次开发,开发者可以根据自己的需求进行定制化调整。开源地址也已公布,用户可以前往相关平台体验和使用这两款语音模型,进一步推动语音技术在各个领域的应用。

GitHub:https://github.com/FunAudioLLM/CosyVoice

划重点:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新