当前位置: 首页 » 资讯 » 新科技 » 正文

没想到,音频大模型开源最彻底的,居然是小红书

IP属地 中国·北京 机器之心Pro 时间:2025-09-17 18:25:51




机器之心原创

编辑:杜伟

不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源 33 款、31 款各类型大模型。

这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小



图源:zh-ai-community

一方面是因为音频生成在技术和数据上面临着特殊挑战,音频信号的计算和建模复杂,数据获取难度更大;另一方面,出于安全、版权等风险的考量,OpenAI、ElevenLabs 等主流玩家大都选择闭源或半开源。

直到今年尤其最近一波开源潮掀起以来,AI 音频领域又热闹了起来,包括字节 MegaTTS3、阿里 Qwen2.5-Omni-7B 和 CosyVoice 3、月之暗面 Kimi-Audio、阶跃星辰 Step-Audio 2 等。

在这些国内大厂和人工智能新势力之外,我们发现,自去年开始,来自小红书的技术团队在音频领域保持了稳定的开源节奏。他们推出了一系列成果,逐步构建起了系统级音频能力,并以开放的姿态将这些成果向社区开放。

这些成果中既有 TTS(文本转语音)方向的 FireRedTTS,也有 ASR(语音识别)方向的 FireRedASR,在当时取得了 SOTA 级别的效果。在实现研究突破之外,模型也具备工业级可商用属性,在关键指标上满足了实际应用需求,并通过开放许可降低商用落地门槛。

因此,发布之后,这些模型吸引了 AI 社区大量研究者与开发者的关注与好评。很多用户在实际项目中直接部署使用并二次开发,可用性和工程化潜力得到了验证。



对于小红书来说,开放高质量音频模型不仅可以提升其在这一细分赛道的技术影响力与话语权,也释放出一个明确的信号:将开源作为长期战略来布局。通过一系列技术开放,小红书正在构建起高粘性的音频大模型开源社区。

就在过去几天,小红书智创音频团队(FireRed)又放出了多项最新开源成果。

SOTA 级音频能力持续注入开源社区

系统级音频能力并非简单地依靠堆砌模型,而需要跨越多重技术门槛。无论是语音合成还是语音识别,都要求在延迟、准确率、自然度、真实性与鲁棒性等维度进行持续优化。

小红书对音频大模型的探索始于去年 9 月开源的 FireRedTTS 语音合成系统,构建了一套由数据处理、基座系统与下游应用组成的基座语音合成框架,先训练基座模型以将文本序列转换为自然、有表现力的语音序列,后利用上下文学习、监督微调等方法高效地服务于配音、自然对话等下游应用。

效果十分显著:只需要一段给定文本和几秒参考音频,无需二次训练,FireRedTTS 就可以模仿任意音色、任意说话风格,比如搞怪风、女友风等,实现自由定制

今年 2 月开源的 FireRedASR 在语音识别上带来新突破,这类技术广泛应用于智能语音交互(如语音助手)与多模态内容理解场景。该系列包含两个模型,FireRedASR-LLM 追求极致的语音识别精度,FireRedASR-AED 在保证语音识别准确率的同时兼顾推理效率。

结果显示,在 AISHELL-1/2、WenetSpeech 等中文普通话测试集上,FireRedASR 在关键指标字错率(CER)上取得了 SOTA。FireRedASR 的 CER 为 3.05%,优于豆包的闭源大模型 ASR 方案 Seed-ASR 的 3.33%,也优于阿里通义 9 月 8 号最新发布的闭源 Qwen3-ASR-Flash 的 3.52%。



目前,该模型已在 GitHub 上收获了 1.3k 的 star。



GitHub 地址:https://github.com/FireRedTeam/FireRedASR

延续 FireRedTTS 的 SOTA 级表现,新一代的 FireRedTTS-2进一步瞄准了语音合成现有方案的痛点,包括灵活性差、发音错误多、说话人切换不稳和韵律不自然,在升级离散语音编码器与文本语音合成模型两大核心模块的基础上,为长对话语音合成提供了更优的解决方案。



FireRedTTS-2 架构概览。

FireRedTTS-2 主打上下文建模与多轮对话能力,在涉及音色克隆、交互式对话和播客生成的多项主客观测评中均实现了行业领先,让开源模型在复杂音频场景建模效果上达到新高点。

音色克隆只需提供对话中发音人的一句语音样本即可模仿其音色与说话习惯,自动生成后续整段对话;同时多说话人音色切换的稳定性与韵律自然度均处于开源模型 SOTA,为今年火热的 AI 播客场景提供了工业级解决方案,一跃成为当前最强开源播客生成大模型。



在 zero-shot 播客生成中,FireRedTTS-2 全面优于 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等开源竞品。

听完下面一段关于「Taylor Swift 恋爱消息」的双人多轮对话播客,你能分得清是真人录音还是 AI 合成吗?



视频链接:https://mp.weixin.qq.com/s/0ij7-jNw3cfUvU_0Mb1NeA

目前,FireRedTTS-2 可以支持 4 位说话人的多轮对话生成,还可以通过扩展数据进一步扩展至更多说话人和更长时长,从而根据实际需求进行快速适配。用户对这款新模型的反馈也不错。



论文地址:https://arxiv.org/pdf/2509.02020代码地址:https://github.com/FireRedTeam/FireRedTTS2

另一大开源新成果是FireRedChat—— 业内首个完全开源的全双工语音对话系统,它在智能判停与延迟等关键指标上也达到了开源 SOTA,端到端性能已接近工业级水准。

此次的亮点还在于:在提供完整模型之外,一站式提供 VAD、ASR、TTS、上下文感知 TTS、音频 LLM、Dify 支持等核心模块,支持私有化部署。这在业内迄今没有任何一家企业或机构将这样的一整套完整方案开源出去。

这就意味着,即使不是语音领域的专业人士,也可以直接克隆代码,快速部署一个自己的语音助手,例如豆包的「打电话」语音对话助理。

基于内置的情绪感知与情感合成能力,通过 FireRedChat 构建的不是一个冷冰冰的机器人,而是一个「知冷暖、能共情、懂表达」的好朋友,她能细腻感知你的情绪变化:在你失落时,轻声安慰、真诚鼓励;在你遇到惊喜时,和你一样心潮澎湃、享受 surprise;在你开心时,陪你分享喜悦、一起欢笑。

FireRedChat 让 AI 聊天助手不只是回应文字,更能用富有温度的声音、情感和表达方式,带给你一种被理解、被陪伴的真实感受,让 AI 真正拥有「人感」。



视频链接:https://mp.weixin.qq.com/s/0ij7-jNw3cfUvU_0Mb1NeA

短短一年时间,小红书围绕文本转语音、语音识别和语音对话形成了比较完整的技术栈,并已经探索出一些好玩的功能,比如以 FireRedASR 技术为支撑的语音评论,通过唱歌、说方言、模仿有梗台词等一系列新的玩法,让评论区的互动性与趣味性更浓,也提升了用户粘性。



音频开源的「执牛耳者」

从小红书已经开源的一系列音频大模型中,我们看到了其对开源生态的长期承诺与战略耐心。

一方面,几乎覆盖了语音交互的核心环节,从 TTS、ASR 到语音对话,技术矩阵日趋完善。由点及面的布局,显示出其在技术积累上的底气,利用系统性开源降低行业准入门槛,形成生态级的牵引力。

未来,小红书还计划推出音乐大模型 FireRedMusic、多语种高精度语音识别系统 FireRedASR-2 以及音频感知大模型,让更多细分方向的开发者用上高质量模型。

另一方面,开源正在从模型层走向体系层,不再只是停留在单一模型的开放,而是扩展到了全链路模块。这意味着,开源的价值上升到了提供系统化能力。

以全双工语音对话系统 FireRedChat 为例,VAD、ASR、TTS、对话框架等在内基础模块的开放,降低了开发者的集成与部署门槛,使他们在开箱即用的基础上快速构建应用,进而扩大音频生态的创新边界。

通过开源这个推动技术演进与生态共建的关键支点,小红书的开源「野心」已逐渐显现。

小红书智创音频团队负责人解奉龙称,他们的目标是建立首个工业级可商用的音频大模型开源社区,涵盖语音识别及理解、语音 / 音效生成、全双工语音交互、音乐理解及生成四大方向,一步步将自身打造成为开源音频领域的「执牛耳者」。

这些模型具备的工业级可商用属性将释放更大的价值。开发者和企业用户在生产环境中直接部署与使用,大大缩短从技术到产品的周期,降低试错成本。

随着语音交互赛道的参与者越来越多,应用创新与落地场景更丰富,反过来又将进一步扩展以小红书为主导的音频开源社区。

小红书智创团队负责人汤旭表示,团队将持续深耕多模态大模型,勇于突破 SOTA 边界,探索 AI 在内容理解与创作中的更多可能。我们坚持开放共享,通过开源生态与全球开发者协同进化,共同推动行业标准演进,让 AI 不仅赋能小红书,更为全球创作者创造价值,开启内容生产的新范式。

作为一种正在重塑行业格局的力量,开源让先进的 AI 能力不再被少数巨头垄断,而是沉淀为整个行业可以共享的底层资源。

从八年前的 Transformer,到年初的 DeepSeek,再到前一段的 Qwen,开源一直都是推动大模型技术跃迁的关键因素之一。在共享基线之上,开发者可以进行低成本地差异化探索。

AI 大厂选择「闭门造车」,本质上是通过技术壁垒构筑护城河,并以此维持商业模式的可持续性和竞争优势,如 OpenAI 等。在资本驱动与市场回报的逻辑下,这种路径无可厚非。然而,推动产业加速演进往往不单靠这些巨头的独角戏,更在于开源社区的多点突破与百花齐放。

在开源生态中,模型、框架和工具可以快速迭代、自由组合,通过更多创新尝试,加快新技术落地。尤其是在 AI 应用的长尾场景中,整个社区的广泛参与更有潜力让 AI 真正从实验室走向产业化。

小红书正在用自己一次次的开源践行这一切,持续推动音频大模型的技术演进,向所有人释放前沿能力,并希望通过更大的开源社区共建实现技术平权。这些 SOTA 级音频大模型为开发者和中小型企业提供了平等的技术起点,让他们在同一基准线上进行创新与应用开发。

在开源生态主导权上的长远布局,可以为小红书在未来的 AI 音频市场竞争中抢占先机。

除了音频, 小红书智创团队还在多模态、AIGC、CV、编辑渲染、算法工程等方向多有建树,并向公司内部社交、直播、电商、商业化广告和生态审核在内的各业务线提供业界领先的技术解决方案,成功落地了语音评论、文字功能等爆款功能。

目前,小红书校招正在进行中,加入智创团队,一起挑战 AI 前沿技术,推动开源生态的未来。



社招通道:https://wxaurl.cn/86Bnp6ULVjj

校招通道:https://wxaurl.cn/l8Soty5Tu0t

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。