9月18日,面壁智能发布0.5B参数尺寸的语音生成基座模型VoxCPM。该模型由面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)联合研发。目前,VoxCPM已在GitHub、Hugging Face等平台开源。
VoxCPM 是一个端到端的扩散自回归语音生成模型,旨在从输入文本直接合成高质量的连续语音表征,并且支持流式地实时输出生成音频片段。与当前 CosyVoice、FireRedTTS 及 SparkTTS 等普遍遵循将连续的语音信号转换为离散的声学词元(Speech token)序列进行处理的方法不同,VoxCPM 采用融合层次化语言建模和局部扩散生成的端到端 TTS 方案。
据介绍,VoxCPM 在 Seed-TTS-eval 等权威语音合成评测榜单中,相似度、词错误率等关键指标上均达到了业界 SOTA 水平。在单 NVIDIA RTX 4090 显卡上实现了 RTF(Real-Time Factor)≈ 0.17 的高效推理速度,且理论上支持流式输出。该模型采用融合层次化语言建模和局部扩散生成的连续表征端到端 TTS 方案,显著提升了语音生成的表现力、自然度、稳定性。
VoxCPM 可根据对文本内容的超强理解,自主选择合适的声音、腔调、韵律风格生成音频。比如,化身为天气预报员字正腔圆的播报、英雄将领战前慷慨激昂的演讲,还可以模拟方言主播等。
在中文语境下,VoxCPM 支持公式、符号音频合成。此外,VoxCPM还支持音素标记替换,实现自定义读音纠正等功能。