![]()
新智元报道
编辑:好困 Aeneas
面壁智能2B小模型VoxCPM 2惊艳开源,一众外国网友疯狂了!30种语言与9大方言它是信手拈来,复刻的贺炜激昂解说与徐志胜脱口秀,相似度简直直击灵魂。这哪是工具,分明是降维打击的生产力核武器!
最近,这个AI直接让我们疯狂了!
事情是这样的。
我们写了段脱口秀,上传了一段徐志胜的录音,让AI用他的声音念出来。
音频一出,编辑部安静了三秒,然后集体炸了。
那个山东味儿的换气声,那个冤种气质,连说到一半突然卡壳的停顿都一模一样。
但这真不是徐志胜。
干这事的叫VoxCPM 2,面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室开发的2B小模型,4月刚刚开源。
体验链接:
https://voxcpm.modelbest.cn/
GitHub开源链接:
https://github.com/OpenBMB/VoxCPM/
Hugging Face链接:
https://huggingface.openbmb.com/model/openbmb/VoxCPM2
而且,不只我们疯了。前天VoxCPM 2首发时,X推文的浏览量分分钟飙到30多万。
![]()
官方放出的demo,直接把一众网友震了。
只见「硅谷钢铁侠」马斯克化身Q版数字人,周游了十几个国家。每到一个国家,他都用极度地道的当地语言,结合当地文化和自家公司疯狂吐槽。
在法国,他会用法语吐槽「8月份在这里等一封邮件,比殖民火星还难」;在意大利,他又用意大利语严正声明:「披萨上放菠萝,简直比炸毁一枚火箭还要罪恶」。
在中国,他用字正腔圆的中文感慨:「这里开源模型的发布频率,简直比我发射星链还要密集」;在泰国,他被辣到怀疑人生,「这木瓜沙拉辣得把我大脑都重启了,Neuralink赶紧记下来!」
评论区里,网友们疯狂夸赞说:VoxCPM 2又一次提高了开源TTS的标准,它可能会彻底改变我们创作音频的方式!
![]()
![]()
能接得住梗,只是VoxCPM 2的基本功而已。
它包含30种语言,9种方言,有48kHz的CD级音质。对于声音克隆、情绪控制,它样样能打,还有一招更绝的「音色设计」,能无中生有,凭空创造一种从未存在过的声音。
别家要好几个模型叠起来干的活,它一个全包。开源,免费,工具链全套附送。
这个AI真的不是来参加比赛的,而是直接把桌子都掀了!
五场实测,拆解AI语音能力上限
一段录音喂进去,贺炜直接复刻
音色克隆,是VoxCPM 2的一大杀手锏,属于人无我有的功能。它实现了业界领先的克隆相似度,真正做到了声临其境。
最近,所有人都被张雪机车的热血故事刷屏了。在WSBK葡萄牙站,张雪凭一己之力,干掉了杜卡迪川崎雅马哈,打破了欧日的百年垄断,一战封神!
那让我们试一试,模仿贺炜的解说风格,用激情澎湃、热泪盈眶、骄傲自豪的声音有节奏感、有停顿地解说下面这段话:
比赛结束了!冠军!张雪和他的国产机车,在葡萄牙,在WSBK的赛场上,创造了历史!
此时此刻,波尔蒂芒赛道的空气仿佛都凝固了。我们看到张雪机车的赛车手在最后一个弯道压低了身姿,那不是简单的倾斜,那是理想主义者在向地心引力发起的最后冲锋!
贺炜这直击灵魂深处的激昂怒吼,已经被一比一完美复刻,这穿透屏幕的声浪,让全世界都听到:中国智造,已经走到了世界巅峰。
一个字,绝。
方言一响,AI瞬间有了人味
AI说中文不奇怪,但它能说出那种带着大蒜味、火锅味、甚至腊汁肉夹馍味的家乡话吗?
VoxCPM 2支持9种中国方言,四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。光看名单没感觉,得听。
为了试出它的底牌,我们请出《武林外传》里的经典人物。
首先,我们先给模型喂了一段佟掌柜的经典台词。原本担心AI会把陕西方言念成「标准普通话带口音」,结果音频一出,全办公室都沉默了。
佟湘玉(陕西话): 「额错咧,额真滴错咧,额从一开始就不该嫁到这儿来……」
简直了,这个微微上扬的尾音,把那种风情万种又委屈巴巴的劲儿掐得死死的。
山东方言里独特的重音位置和喜感,粤语里的文艺腔和江湖气,VoxCPM 2全接住了。
燕小六(山东话): 「给俺照看好俺七舅姥爷!」(帮我照顾好我七舅老爷)
无双(粤语):「有啲人天生血脉带风,注定一世都要漂泊。」 (有些人血里有风,注定是要漂泊的)
最后,再来几段有故事感的。
我们给VoxCPM 2下了一道指令,「闽南语,女性,语气又凶又心疼」,让它演一个叫孙子回来吃饭的闽南阿嬷。
死囡仔!叫你紧来食饭你就装无听着!菜拢冷去矣!你若阁无来,碗筷我就收起来,今仔暗你去食风就好!......好啦好啦,紧来坐,我共你留一碗鸡汤。
闽南阿嬷管你吃饭,广东老师傅管你吃好。
我们让VoxCPM 2用粤语念了一段干炒牛河的旁白,控制指令只写了一句「像纪录片旁白,浑厚从容」。
一碟好嘅干炒牛河,镬气系灵魂。猛火烧镬,牛油落镬嘅一刻,成间厨房都系香味。河粉要炒到条条分明,牛肉要滑而唔韧。老师傅讲,干炒牛河唔系炒出嚟嘅,系「抛」出嚟嘅。
不紧不慢地讲述节奏,听完想立刻下楼找大排档。
上海话也不甘示弱。
先来一段上海阿姨吐槽邻居装修,语速快、嗲中带刺,每个字都在翻白眼。
侬晓得伐,阿拉隔壁邻居又开始装修了。礼拜六一大早就叮叮咚咚,我整个人困在床浪向,感觉自家屋里厢就像住在拆迁现场。我发消息过去讲,能不能轻一点?人家回我一句,「快了快了」。快了快了讲了三个号头了!
同样是上海话,这次换成低沉威严的中年男声,像老克勒靠在沙发上跟晚辈讲规矩。
我信过交情,也吃过生活。到如今我想通了,这个世界浪向,第一桩事体就是勿要让别人晓得侬心里厢到底想啥。侬今朝来寻我,我帮侬这个忙,但是将来总有一日,我要侬帮我做一桩事体。这桩事体,侬勿好推脱。
同一种方言,一个嗲到骨头酥,一个冷到脊背凉。VoxCPM 2的驾驭,已经不是「能说」的问题了,是「能演」。
为什么效果这么好?因为模型抓住了方言里的语气词、顿挫感和情绪颗粒度,方言不再是几种发音规律的组合,而是一种情感的复刻。
对于自媒体短视频、文化出海团队来说,这简直是核武器级的生产力。
凭空捏出一个声优,还能千人千面
VoxCPM 2的另一大突出能力,就是音色设计。
现在市面上多数模型只能对固定音色进行情感或风格控制,但VoxCPM 2却能支持任意音色的生成。
因此,我们可以先用文字创造一个理想声音,精确控制它的情感和风格,这就为内容创作打开了无限空间。
比如下面这个武侠短剧的配音,无论是浪子侠客、活泼少女还是江湖老者,角色的贴合度都到了毛孔级别。
它不再是那种录音棚里冷冰冰的、毫无波澜的对白,而是带上了呼吸声、带上了情绪的起伏。
这就是核弹级的降维打击,从此再也不需要满世界去找配音演员了,VoxCPM 2一个AI就能生成千变万化的音色。
另外,我们还试着让VoxCPM 2设计了一段《恋与深空》男主沈星移对女主的表白。
设计细节如下。
音色:清澈男中音,偏冷调但非冰冷,类似「月光落在雪地上」的质感
语速:日常语速偏慢,约每分钟130-150字;内心戏时更缓
气息:句尾常有极轻的吸气或叹息感,表现隐忍
果然,VoxCPM 2分分钟复现了一个乙女游戏男主的音色,像是在克制情绪,却又无法藏住那份对女主那份压抑隐忍的深情,简直满分!
温柔能设计,冷也能。
我们用控制指令写了一段人设,「中年男性,声音干涩发紧,语速很慢,每说完一句就停下来,音量始终很低,像是自言自语」,让它念一段鲁迅体吐槽。
我翻开朋友圈一查,满屏都写着两个字,副业。横竖睡不着,仔细看了半夜,才从字缝里看出字来,割韭菜。
没有参考音频,没有克隆对象,这个声音是VoxCPM 2凭一段文字描述从零生成的。
浪子侠客、深情男主、冷面文人,音色设计的上限取决于你的想象力。
李白痛饮,七句诗七种情绪
甚至,我们还能通过指令,让每一句话都拥有不同的情绪。
「弃我去者,昨日之日不可留」,指令写「声音沉缓,咬着字尾,像酒后吐郁气」。模型给出了每个字都顿一下的沉闷感,透着力。
「长风万里送秋色」,指令写「像深吸一口气往外放,畅快激动」。「秋色」二字被明显拉长,声音一下子打开了。
「抽刀断水水更流,举杯销愁愁更愁」,指令写「语速放慢,音调降低,尾音拖长」。「愁更愁」三个字几乎是叹气,但又带着一股不服气。
从郁闷到豪迈,从悲伤到释然,每一句的情绪走向都精确跟着控制指令在转。
30种语言覆盖全球,哪吒出海不用找翻译
除了音色克隆和设计,这一次,VoxCPM 2还给出了跨语种的降维打击。
它不仅30种全球主流语言,而且尤其强化了东南亚八国的语种,包括泰语、越南语、印尼语、马来语、菲律宾语等。
要知道,这些语种全是出海团队盯得最紧的赛道,现在一个模型全包了。
说到这儿,那就少不了我们国产电影和电视剧的东南亚出海了。
狂揽159亿票房的《哪吒之魔童闹海》中,哪吒有一段经典台词:「我命由我不由天,是魔是仙,我自己说了算!」
VoxCPM 2给出的泰语、越南语版本,都呈现出极其自然的原声质感。哪吒那种混不吝的狠劲儿,都在异国语境里被完美显现出来。
曾经出海配音需要面对的文化隔阂、口音偏差和昂贵的人力成本,现在在 VoxCPM 2面前,都彻底失去了屏障!
接下来,我们做一个东南亚语言的真实商业场景测试。
我们写了一条15秒带货广告脚本,用VoxCPM 2分别输出泰语、越南语、印尼语、马来语、菲律宾语五个版本。
控制指令统一设定为「年轻女性,清亮活泼,像电商直播主播推荐产品」。
早上好!新到的冰椰拿铁,椰香浓郁,入口丝滑。现在下单第二杯半价,今天喝过的朋友都回来复购了。别犹豫,点下面链接直接拍!
结果让人大为惊喜:五个语种切下来,发音原汁原味,是我们的东南亚朋友都听不出破绽的程度了。
成本呢?如果是用那些按字符收费的闭源平台,五种语言一天跑30条,一个月下来光账单就得好几千美金,让老板们肉疼。
但如果是VoxCPM 2上场,成本也就是一张4090显卡的几度电费的钱,大大利好跨境电商团队!
五场测试跑完,克隆、方言、设计、情绪、多语种,没有一个场景让它露怯。
中国小模型全家桶独一份
开发者疯狂用脚投票
在AI开源界,好用是一方面,配套全不全才是决定开发者用不用脚投票的关键。
这次,面壁智能提供的是全家桶级的工具箱,真正做到了让用户上手即用。
部署层面,原生Torch推理、LoRA微调、全参数微调都支持。高吞吐场景有专门的VoxCPM-NanoVLLM做GPU推理。
生态层面,ComfyUI、WebUI插件一应俱全,甚至为性能狂魔准备了Rust语言重构版本。
从MiniCPM到VoxCPM,面壁智能一直押注「高知识密度」路线,用更小的参数量(2B)打出超越百亿级的性能。
对开发者来说,部署成本更低,推理速度更快,端侧应用更灵活。
而它的开源路线,更是让人疯狂打call。
要知道,现在语音模型的头部闭源平台ElevenLabs,光Pro套餐就要99刀一个月,而这只有50万字符额度,超了另算。
相比之下,VoxCPM 2完全是开源的,不收一分钱,可以随意拿去修改和商用。
目前,VoxCPM 2的体验链接已经上线,GitHub开源仓库在OpenBMB/VoxCPM,模型权重开放下载。
技术理想主义
让中国AGI更有「声音」
VoxCPM 2能做到以上这些,底层是技术路线的选择。
目前开源TTS领域的主流技术路线是Token-based。把连续的语音信号先切成离散的声学Token,再用语言模型逐个预测。这个过程不可避免会丢失声学信息和情感细节。
VoxCPM 2走的是另一条路,扩散自回归连续表征。
用个类比来解释。
Token-based的方法像是先把一幅油画拍成马赛克照片,再试图从马赛克还原油画。每次「打马赛克」都会丢失一些色彩过渡的细节。
VoxCPM 2的方法是在连续的颜色空间里作画,不经过马赛克这一步。声音的细腻纹理天然保留得更完整。
落到听感上,差异很明显。
你去听VoxCPM 2克隆出来的声音,气息感、齿音、喉咙的震动,这些微妙的声学细节保留度好得多。
开头那段鲁迅的冷讽之所以能做到「不靠音量靠气息」,底层就是这条技术路线在撑着。
至此,AI语音的「暴力美学」时代正式结束,VoxCPM 2开启的是一个更细腻、更普惠的新时代。
这场比赛,已经被彻底杀死了。
参考资料:
https://voxcpm.modelbest.cn/
https://github.com/OpenBMB/VoxCPM/
https://huggingface.openbmb.com/model/openbmb/VoxCPM2
![]()





京公网安备 11011402013531号