当前位置: 首页 » 资讯 » 新科技 » 正文

语音编辑像改Word?阶跃星辰发布30亿参数音频编辑模型Step-Audio-EditX

IP属地 中国·北京 编辑:顾雨柔 Chinaz 时间:2025-11-10 12:21:15

音频创作门槛被彻底击穿。国内AI独角兽阶跃星辰(StepStepFun AI)于11月9日正式发布全球领先的LLM级音频编辑模型——Step-Audio-EditX,首次实现“用自然语言指令编辑语音”的革命性体验。用户只需输入“把这段话改成川渝rapper的嚣张语气”或“结尾加一个害羞的笑声”,模型即可精准调整音色、情绪、节奏甚至呼吸停顿,让语音编辑如修改文档般直观、高效。

30亿参数,性能不减反升

Step-Audio-EditX的核心突破在于其极致高效的模型压缩技术。团队将原始130亿参数模型精炼至仅30亿,不仅大幅降低部署成本,更在关键指标上实现反超。模型支持零样本语音克隆——仅需一句参考音频,无需目标人物提供任何训练数据,即可高保真复现其音色;同时支持多轮迭代编辑,用户可连续发出细化指令(如“再温柔一点”“笑声延长0.3秒”),逐步逼近理想效果。

方言与情感,拿捏得死死的

该模型对中文语境的理解尤为惊艳,流畅支持普通话、英语、四川话、粤语,方言表达中的地域情绪与语用习惯自然真实。在盲测中,评测员一致认为其“川渝段子的市井感”“粤语语气词的细腻度”远超同类产品。

硬刚闭源商用模型,三项指标全面领先

AIbase获取的对比数据显示,Step-Audio-EditX在三大核心维度碾压Minimax与字节跳动Doubao等闭源方案:

自然度评分:4.72/5(Minimax4.51,Doubao4.38)

情感准确率:93.7%(领先第二名6.2个百分点)

音色保持度:98.1%,几乎无损还原

应用场景爆发:从短视频到无障碍服务

这一技术正催生全新内容形态:

短视频博主可一键切换“元气少女”“毒舌导师”等人设声音;

有声书创作者单人完成多角色情感对白;

四川话搞笑视频经AI重制,秒变美式脱口秀风格出海;

听障用户的语音合成系统首次具备“情感温度”,不再冰冷机械。

AIbase认为,Step-Audio-EditX的意义远超工具升级——它正在重构音频内容的生产逻辑。当语音不再是“录制即定型”的线性媒介,而成为可反复雕琢的“活文本”,亿万创作者将获得前所未有的表达自由。下一步,若阶跃星辰开放API或集成至手机系统,这把“AI魔法剪刀手”或将真正进入每个人的口袋,让每一次发声,都可被重新想象。

产品入口:https://stepaudiollm.github.io/step-audio-editx/

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。