音频创作门槛被彻底击穿。国内AI独角兽阶跃星辰(StepStepFun AI)于11月9日正式发布全球领先的LLM级音频编辑模型——Step-Audio-EditX,首次实现“用自然语言指令编辑语音”的革命性体验。用户只需输入“把这段话改成川渝rapper的嚣张语气”或“结尾加一个害羞的笑声”,模型即可精准调整音色、情绪、节奏甚至呼吸停顿,让语音编辑如修改文档般直观、高效。
30亿参数,性能不减反升
Step-Audio-EditX的核心突破在于其极致高效的模型压缩技术。团队将原始130亿参数模型精炼至仅30亿,不仅大幅降低部署成本,更在关键指标上实现反超。模型支持零样本语音克隆——仅需一句参考音频,无需目标人物提供任何训练数据,即可高保真复现其音色;同时支持多轮迭代编辑,用户可连续发出细化指令(如“再温柔一点”“笑声延长0.3秒”),逐步逼近理想效果。
方言与情感,拿捏得死死的
该模型对中文语境的理解尤为惊艳,流畅支持普通话、英语、四川话、粤语,方言表达中的地域情绪与语用习惯自然真实。在盲测中,评测员一致认为其“川渝段子的市井感”“粤语语气词的细腻度”远超同类产品。
硬刚闭源商用模型,三项指标全面领先
AIbase获取的对比数据显示,Step-Audio-EditX在三大核心维度碾压Minimax与字节跳动Doubao等闭源方案:
自然度评分:4.72/5(Minimax4.51,Doubao4.38)
情感准确率:93.7%(领先第二名6.2个百分点)
音色保持度:98.1%,几乎无损还原
应用场景爆发:从短视频到无障碍服务
这一技术正催生全新内容形态:
短视频博主可一键切换“元气少女”“毒舌导师”等人设声音;
有声书创作者单人完成多角色情感对白;
四川话搞笑视频经AI重制,秒变美式脱口秀风格出海;
听障用户的语音合成系统首次具备“情感温度”,不再冰冷机械。
AIbase认为,Step-Audio-EditX的意义远超工具升级——它正在重构音频内容的生产逻辑。当语音不再是“录制即定型”的线性媒介,而成为可反复雕琢的“活文本”,亿万创作者将获得前所未有的表达自由。下一步,若阶跃星辰开放API或集成至手机系统,这把“AI魔法剪刀手”或将真正进入每个人的口袋,让每一次发声,都可被重新想象。
产品入口:https://stepaudiollm.github.io/step-audio-editx/





京公网安备 11011402013531号