当前位置：首页 » 资讯 » 新科技 » 正文

Step-Audio-EditX 发布:30亿参数音频 LLM 打开语音“可编辑时代”

IP属地中国·北京 编辑：江紫萱 Chinaz 时间：2025-11-10 12:21:27

在文本生成与图像生成已被大模型彻底重塑的时代，语音编辑仍是最难以“像写文本那样”直观操作的领域。而近日，StepFun AI 发布的全新开源项目 Step-Audio-EditX 正在改变这一现状。该模型基于 30亿参数的音频语言模型（Audio LLM），首次将语音编辑转化为类似文本标记级别的可控操作，而非传统的波形信号处理任务。
根据团队在最新论文 arXiv:2511.03601中介绍，Step-Audio-EditX 的目标是让开发者能够“像改一句文本那样，直接编辑语音的情感、语调、风格甚至呼吸声”。
从“模仿声音”到“精准控制”
目前多数零样本 TTS 系统仅能从短参考音频中复制情感、口音和音色，听起来自然却缺乏控制力。文本中的风格提示往往被忽略，尤其在跨语言、跨风格任务中效果不稳定。
Step-Audio-EditX 选择了完全不同的路径——不再依赖复杂的解耦编码器结构，而是通过改变数据结构与训练目标实现可控性。模型通过大量文本相同、属性差异显著的语音对和语音三元组进行学习，从而掌握如何在文本不变的前提下调整情感、风格与副语言信号。
双码本分词与3B 音频 LLM 架构
Step-Audio-EditX 延续了 Step-Audio 的双码本分词器（Dual Codebook Tokenizer）:
语言流:采样率16.7Hz，包含1024个标记;
语义流:采样率25Hz，包含4096个标记;
两者以 2:3比例交错排列，保留语音中的韵律与情感特征。
在此基础上，研究团队构建了一个 30亿参数的紧凑型音频 LLM。模型使用文本 LLM 初始化，并在混合语料库上训练（文本与音频标记比例1:1）。它能读取文本或音频标记，并始终输出双码本标记序列。
音频重建由独立解码器完成:扩散变换器流匹配模块预测梅尔频谱图，BigVGANv2声码器将其转为波形。整个模块在20万小时高质量语音上训练，显著提升了音色与韵律的自然度。
大间隔学习与合成数据策略
Step-Audio-EditX 的关键创新是“大间隔学习”（Large Margin Learning）。模型在保持文本不变的前提下，通过三元组和四元组样本训练，学习在“差异明显”的语音属性间转换。
团队使用了覆盖中、英、粤语和四川话的 6万名说话人数据集，并构建了合成三元组以强化情感与风格控制。每组样本由人工配音演员录制10秒片段，StepTTS 系统生成中性与情感版本，再由人工与模型双重评分筛选质量最高的样本。
副语言（如笑声、呼吸、填充停顿）编辑基于 NVSpeech 数据集，通过克隆和标注去除实现时域监督，无需额外边距模型。
SFT + PPO:让模型学会听懂指令
训练分为两个阶段:
监督微调（SFT）:模型在统一的聊天格式中同时学习 TTS 和编辑任务;
强化学习（PPO）:通过奖励模型优化对自然语言指令的响应。
奖励模型基于 SFT 检查点初始化，使用 Bradley-Terry 损失在大间隔偏好对上训练，直接在标记级别计算奖励，无需解码波形。PPO 再结合 KL 惩罚项平衡音质与偏差。
Step-Audio-Edit-Test:AI 评测标准
为量化控制能力，团队提出了 Step-Audio-Edit-Test 基准，采用 Gemini2.5Pro 作为评审模型，从情感、风格、副语言三维度评估。
结果显示:
中文情感准确率从57.0% 提升至77.7%;
风格准确率从41.6% 提升至69.2%;
英文结果表现类似。
副语言编辑平均得分也从1.91升至2.89，已接近主流商业系统水平。更令人惊讶的是，Step-Audio-EditX 对闭源系统如 GPT-4o mini TTS、ElevenLabs v2、豆包种子 TTS2.0等均能带来显著提升。
Step-Audio-EditX 代表了可控语音合成的一次真正跃迁。它放弃传统的波形级信号操作，以离散标记为基础，结合大间隔学习与强化优化，使语音编辑的体验首次接近文本编辑的流畅度。
在技术与开放性上，StepFun AI 选择了全堆栈开源（包括模型权重与训练代码），极大地降低了语音编辑研究的门槛。这意味着未来开发者可以像修改文字一样，精准控制语音的情绪、语气与副语言特征。
项目地址:https://stepaudiollm.github.io/step-audio-editx/
论文:https://arxiv.org/pdf/2511.03601
GitHub:https://github.com/stepfun-ai/Step-Audio-EditX
在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用