当前位置：首页 » 资讯 » 新科技 » 正文

张雪机车燃爆封神！国产2B语音模型重磅开源，全网听完都起鸡皮疙瘩

IP属地中国·北京 新智元 时间：2026-04-09 04:48:17

新智元报道
编辑：好困 Aeneas
面壁智能2B小模型VoxCPM 2惊艳开源，一众外国网友疯狂了！30种语言与9大方言它是信手拈来，复刻的贺炜激昂解说与徐志胜脱口秀，相似度简直直击灵魂。这哪是工具，分明是降维打击的生产力核武器！
最近，这个AI直接让我们疯狂了！
事情是这样的。
我们写了段脱口秀，上传了一段徐志胜的录音，让AI用他的声音念出来。
音频一出，编辑部安静了三秒，然后集体炸了。
那个山东味儿的换气声，那个冤种气质，连说到一半突然卡壳的停顿都一模一样。
但这真不是徐志胜。
干这事的叫VoxCPM 2，面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室开发的2B小模型，4月刚刚开源。
体验链接：
https://voxcpm.modelbest.cn/
GitHub开源链接：
https://github.com/OpenBMB/VoxCPM/
Hugging Face链接：
https://huggingface.openbmb.com/model/openbmb/VoxCPM2
而且，不只我们疯了。前天VoxCPM 2首发时，X推文的浏览量分分钟飙到30多万。

官方放出的demo，直接把一众网友震了。
只见「硅谷钢铁侠」马斯克化身Q版数字人，周游了十几个国家。每到一个国家，他都用极度地道的当地语言，结合当地文化和自家公司疯狂吐槽。
在法国，他会用法语吐槽「8月份在这里等一封邮件，比殖民火星还难」；在意大利，他又用意大利语严正声明：「披萨上放菠萝，简直比炸毁一枚火箭还要罪恶」。
在中国，他用字正腔圆的中文感慨：「这里开源模型的发布频率，简直比我发射星链还要密集」；在泰国，他被辣到怀疑人生，「这木瓜沙拉辣得把我大脑都重启了，Neuralink赶紧记下来！」
评论区里，网友们疯狂夸赞说：VoxCPM 2又一次提高了开源TTS的标准，它可能会彻底改变我们创作音频的方式！

能接得住梗，只是VoxCPM 2的基本功而已。
它包含30种语言，9种方言，有48kHz的CD级音质。对于声音克隆、情绪控制，它样样能打，还有一招更绝的「音色设计」，能无中生有，凭空创造一种从未存在过的声音。
别家要好几个模型叠起来干的活，它一个全包。开源，免费，工具链全套附送。
这个AI真的不是来参加比赛的，而是直接把桌子都掀了！
五场实测，拆解AI语音能力上限
一段录音喂进去，贺炜直接复刻
音色克隆，是VoxCPM 2的一大杀手锏，属于人无我有的功能。它实现了业界领先的克隆相似度，真正做到了声临其境。
最近，所有人都被张雪机车的热血故事刷屏了。在WSBK葡萄牙站，张雪凭一己之力，干掉了杜卡迪川崎雅马哈，打破了欧日的百年垄断，一战封神！
那让我们试一试，模仿贺炜的解说风格，用激情澎湃、热泪盈眶、骄傲自豪的声音有节奏感、有停顿地解说下面这段话：
比赛结束了！冠军！张雪和他的国产机车，在葡萄牙，在WSBK的赛场上，创造了历史！
此时此刻，波尔蒂芒赛道的空气仿佛都凝固了。我们看到张雪机车的赛车手在最后一个弯道压低了身姿，那不是简单的倾斜，那是理想主义者在向地心引力发起的最后冲锋！
贺炜这直击灵魂深处的激昂怒吼，已经被一比一完美复刻，这穿透屏幕的声浪，让全世界都听到：中国智造，已经走到了世界巅峰。
一个字，绝。
方言一响，AI瞬间有了人味
AI说中文不奇怪，但它能说出那种带着大蒜味、火锅味、甚至腊汁肉夹馍味的家乡话吗？
VoxCPM 2支持9种中国方言，四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。光看名单没感觉，得听。
为了试出它的底牌，我们请出《武林外传》里的经典人物。
首先，我们先给模型喂了一段佟掌柜的经典台词。原本担心AI会把陕西方言念成「标准普通话带口音」，结果音频一出，全办公室都沉默了。
佟湘玉（陕西话）：「额错咧，额真滴错咧，额从一开始就不该嫁到这儿来……」
简直了，这个微微上扬的尾音，把那种风情万种又委屈巴巴的劲儿掐得死死的。
山东方言里独特的重音位置和喜感，粤语里的文艺腔和江湖气，VoxCPM 2全接住了。
燕小六（山东话）：「给俺照看好俺七舅姥爷！」（帮我照顾好我七舅老爷）
无双（粤语）：「有啲人天生血脉带风，注定一世都要漂泊。」（有些人血里有风，注定是要漂泊的）
最后，再来几段有故事感的。
我们给VoxCPM 2下了一道指令，「闽南语，女性，语气又凶又心疼」，让它演一个叫孙子回来吃饭的闽南阿嬷。
死囡仔！叫你紧来食饭你就装无听着！菜拢冷去矣！你若阁无来，碗筷我就收起来，今仔暗你去食风就好！......好啦好啦，紧来坐，我共你留一碗鸡汤。
闽南阿嬷管你吃饭，广东老师傅管你吃好。
我们让VoxCPM 2用粤语念了一段干炒牛河的旁白，控制指令只写了一句「像纪录片旁白，浑厚从容」。
一碟好嘅干炒牛河，镬气系灵魂。猛火烧镬，牛油落镬嘅一刻，成间厨房都系香味。河粉要炒到条条分明，牛肉要滑而唔韧。老师傅讲，干炒牛河唔系炒出嚟嘅，系「抛」出嚟嘅。
不紧不慢地讲述节奏，听完想立刻下楼找大排档。
上海话也不甘示弱。
先来一段上海阿姨吐槽邻居装修，语速快、嗲中带刺，每个字都在翻白眼。
侬晓得伐，阿拉隔壁邻居又开始装修了。礼拜六一大早就叮叮咚咚，我整个人困在床浪向，感觉自家屋里厢就像住在拆迁现场。我发消息过去讲，能不能轻一点？人家回我一句，「快了快了」。快了快了讲了三个号头了！
同样是上海话，这次换成低沉威严的中年男声，像老克勒靠在沙发上跟晚辈讲规矩。
我信过交情，也吃过生活。到如今我想通了，这个世界浪向，第一桩事体就是勿要让别人晓得侬心里厢到底想啥。侬今朝来寻我，我帮侬这个忙，但是将来总有一日，我要侬帮我做一桩事体。这桩事体，侬勿好推脱。
同一种方言，一个嗲到骨头酥，一个冷到脊背凉。VoxCPM 2的驾驭，已经不是「能说」的问题了，是「能演」。
为什么效果这么好？因为模型抓住了方言里的语气词、顿挫感和情绪颗粒度，方言不再是几种发音规律的组合，而是一种情感的复刻。
对于自媒体短视频、文化出海团队来说，这简直是核武器级的生产力。
凭空捏出一个声优，还能千人千面
VoxCPM 2的另一大突出能力，就是音色设计。
现在市面上多数模型只能对固定音色进行情感或风格控制，但VoxCPM 2却能支持任意音色的生成。
因此，我们可以先用文字创造一个理想声音，精确控制它的情感和风格，这就为内容创作打开了无限空间。
比如下面这个武侠短剧的配音，无论是浪子侠客、活泼少女还是江湖老者，角色的贴合度都到了毛孔级别。
它不再是那种录音棚里冷冰冰的、毫无波澜的对白，而是带上了呼吸声、带上了情绪的起伏。
这就是核弹级的降维打击，从此再也不需要满世界去找配音演员了，VoxCPM 2一个AI就能生成千变万化的音色。
另外，我们还试着让VoxCPM 2设计了一段《恋与深空》男主沈星移对女主的表白。
设计细节如下。
音色：清澈男中音，偏冷调但非冰冷，类似「月光落在雪地上」的质感
语速：日常语速偏慢，约每分钟130-150字；内心戏时更缓
气息：句尾常有极轻的吸气或叹息感，表现隐忍
果然，VoxCPM 2分分钟复现了一个乙女游戏男主的音色，像是在克制情绪，却又无法藏住那份对女主那份压抑隐忍的深情，简直满分！
温柔能设计，冷也能。
我们用控制指令写了一段人设，「中年男性，声音干涩发紧，语速很慢，每说完一句就停下来，音量始终很低，像是自言自语」，让它念一段鲁迅体吐槽。
我翻开朋友圈一查，满屏都写着两个字，副业。横竖睡不着，仔细看了半夜，才从字缝里看出字来，割韭菜。
没有参考音频，没有克隆对象，这个声音是VoxCPM 2凭一段文字描述从零生成的。
浪子侠客、深情男主、冷面文人，音色设计的上限取决于你的想象力。
李白痛饮，七句诗七种情绪
甚至，我们还能通过指令，让每一句话都拥有不同的情绪。
「弃我去者，昨日之日不可留」，指令写「声音沉缓，咬着字尾，像酒后吐郁气」。模型给出了每个字都顿一下的沉闷感，透着力。
「长风万里送秋色」，指令写「像深吸一口气往外放，畅快激动」。「秋色」二字被明显拉长，声音一下子打开了。
「抽刀断水水更流，举杯销愁愁更愁」，指令写「语速放慢，音调降低，尾音拖长」。「愁更愁」三个字几乎是叹气，但又带着一股不服气。
从郁闷到豪迈，从悲伤到释然，每一句的情绪走向都精确跟着控制指令在转。
30种语言覆盖全球，哪吒出海不用找翻译
除了音色克隆和设计，这一次，VoxCPM 2还给出了跨语种的降维打击。
它不仅30种全球主流语言，而且尤其强化了东南亚八国的语种，包括泰语、越南语、印尼语、马来语、菲律宾语等。
要知道，这些语种全是出海团队盯得最紧的赛道，现在一个模型全包了。
说到这儿，那就少不了我们国产电影和电视剧的东南亚出海了。
狂揽159亿票房的《哪吒之魔童闹海》中，哪吒有一段经典台词：「我命由我不由天，是魔是仙，我自己说了算！」
VoxCPM 2给出的泰语、越南语版本，都呈现出极其自然的原声质感。哪吒那种混不吝的狠劲儿，都在异国语境里被完美显现出来。
曾经出海配音需要面对的文化隔阂、口音偏差和昂贵的人力成本，现在在 VoxCPM 2面前，都彻底失去了屏障！
接下来，我们做一个东南亚语言的真实商业场景测试。
我们写了一条15秒带货广告脚本，用VoxCPM 2分别输出泰语、越南语、印尼语、马来语、菲律宾语五个版本。
控制指令统一设定为「年轻女性，清亮活泼，像电商直播主播推荐产品」。
早上好！新到的冰椰拿铁，椰香浓郁，入口丝滑。现在下单第二杯半价，今天喝过的朋友都回来复购了。别犹豫，点下面链接直接拍！
结果让人大为惊喜：五个语种切下来，发音原汁原味，是我们的东南亚朋友都听不出破绽的程度了。
成本呢？如果是用那些按字符收费的闭源平台，五种语言一天跑30条，一个月下来光账单就得好几千美金，让老板们肉疼。
但如果是VoxCPM 2上场，成本也就是一张4090显卡的几度电费的钱，大大利好跨境电商团队！
五场测试跑完，克隆、方言、设计、情绪、多语种，没有一个场景让它露怯。
中国小模型全家桶独一份
开发者疯狂用脚投票
在AI开源界，好用是一方面，配套全不全才是决定开发者用不用脚投票的关键。
这次，面壁智能提供的是全家桶级的工具箱，真正做到了让用户上手即用。
部署层面，原生Torch推理、LoRA微调、全参数微调都支持。高吞吐场景有专门的VoxCPM-NanoVLLM做GPU推理。
生态层面，ComfyUI、WebUI插件一应俱全，甚至为性能狂魔准备了Rust语言重构版本。
从MiniCPM到VoxCPM，面壁智能一直押注「高知识密度」路线，用更小的参数量（2B）打出超越百亿级的性能。
对开发者来说，部署成本更低，推理速度更快，端侧应用更灵活。
而它的开源路线，更是让人疯狂打call。
要知道，现在语音模型的头部闭源平台ElevenLabs，光Pro套餐就要99刀一个月，而这只有50万字符额度，超了另算。
相比之下，VoxCPM 2完全是开源的，不收一分钱，可以随意拿去修改和商用。
目前，VoxCPM 2的体验链接已经上线，GitHub开源仓库在OpenBMB/VoxCPM，模型权重开放下载。
技术理想主义
让中国AGI更有「声音」
VoxCPM 2能做到以上这些，底层是技术路线的选择。
目前开源TTS领域的主流技术路线是Token-based。把连续的语音信号先切成离散的声学Token，再用语言模型逐个预测。这个过程不可避免会丢失声学信息和情感细节。
VoxCPM 2走的是另一条路，扩散自回归连续表征。
用个类比来解释。
Token-based的方法像是先把一幅油画拍成马赛克照片，再试图从马赛克还原油画。每次「打马赛克」都会丢失一些色彩过渡的细节。
VoxCPM 2的方法是在连续的颜色空间里作画，不经过马赛克这一步。声音的细腻纹理天然保留得更完整。
落到听感上，差异很明显。
你去听VoxCPM 2克隆出来的声音，气息感、齿音、喉咙的震动，这些微妙的声学细节保留度好得多。
开头那段鲁迅的冷讽之所以能做到「不靠音量靠气息」，底层就是这条技术路线在撑着。
至此，AI语音的「暴力美学」时代正式结束，VoxCPM 2开启的是一个更细腻、更普惠的新时代。
这场比赛，已经被彻底杀死了。
参考资料：
https://voxcpm.modelbest.cn/
https://github.com/OpenBMB/VoxCPM/
https://huggingface.openbmb.com/model/openbmb/VoxCPM2

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

谷歌Deep Think八语奥赛屠榜！自主攻克4大未解难题，科研壁垒崩塌

张雪机车燃爆封神！国产2B语音模型重磅开源，全网听完都起鸡皮疙瘩

老旧Kindle用户的天塌了！5月20日起将无法下载商店内容

微博：「乘风2026微博」多次冒充官方账号，被封号

B站官宣播放页暂停广告！陈睿曾称「永不变质」？网友吵翻了！

翻车！张雪机车LOGO被指涉嫌抄袭

全站最新

谷歌Deep Think八语奥赛屠榜！自主攻克4大未解难题，科研壁垒崩塌

张雪机车燃爆封神！国产2B语音模型重磅开源，全网听完都起鸡皮疙瘩

老旧Kindle用户的天塌了！5月20日起将无法下载商店内容

微博：「乘风2026微博」多次冒充官方账号，被封号

热门推荐

谷歌Deep Think八语奥赛屠榜！自主攻克4大未解难题，科研壁垒崩塌

张雪机车燃爆封神！国产2B语音模型重磅开源，全网听完都起鸡皮疙瘩

老旧Kindle用户的天塌了！5月20日起将无法下载商店内容

微博：「乘风2026微博」多次冒充官方账号，被封号

B站官宣播放页暂停广告！陈睿曾称「永不变质」？网友吵翻了！

翻车！张雪机车LOGO被指涉嫌抄袭

从辅助到引擎：六大行AI投入超1300亿，大模型已成“新质生产力”

谁在死磕，存算一体？

长鑫存储正在成为联想们不涨价的希望

曾从钦：酒王掌舵者的起落与警示

他用一盘廉价寿司，喂饱了整个日本

大疆与影石打起来了，但我觉得是好事

瑞安集团千亿豪门越斗越富？兄弟反目、母子对簿公堂，却干出10家上市公司！

保健品“祛魅”时代，优思益死了，汤臣倍健就赢了吗？

茅台跨界做宠物粮，藏着什么阳谋？