12月15日,阿里通义宣布开源Fun-CosyVoice3-0.5B,该版本提供了zero-shot(注:零样本)音色克隆能力,只需要你提供一段3秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。
此外,通义推出轻量化版本Fun-ASR-Nano模型,总参数量压缩到0.8B,推理成本更低,现已开源,支持本地部署与定制化微调。
值得一提的是,通义还增强了Fun-ASR模型,噪声场景准确率93%、支持歌词与说唱识别。

12月15日,阿里通义宣布开源Fun-CosyVoice3-0.5B,该版本提供了zero-shot(注:零样本)音色克隆能力,只需要你提供一段3秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。
此外,通义推出轻量化版本Fun-ASR-Nano模型,总参数量压缩到0.8B,推理成本更低,现已开源,支持本地部署与定制化微调。
值得一提的是,通义还增强了Fun-ASR模型,噪声场景准确率93%、支持歌词与说唱识别。

标签: 通义 能力 音色 克隆 模型 样本 开源 场景 噪声 准确率 数量 总参 部署 凤凰网 科技 轻量化 版本 二次开发 微调 语音
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
热门推荐