当前位置: 首页 » 资讯 » 新科技 » 正文

阿里通义实验室开源音频生成新模型ThinkSound,革新视频转音频技术

IP属地 中国·北京 编辑:任飞扬 大力财经 时间:2025-07-06 08:06:51

阿里通义实验室近期在音频技术领域取得了突破性进展,正式推出了名为ThinkSound的音频生成模型,并宣布将其开源。这一创新之举标志着音频生成技术迈入了一个全新的阶段,特别是将思维链(CoT)技术首次应用于音频生成领域。

据通义语音团队介绍,传统的视频转音频(V2A)技术往往难以精准捕捉视觉与声音之间的时空关联,导致生成的音频与视频中的关键事件存在错位现象。而ThinkSound模型则通过引入结构化推理机制,模拟人类音效师的工作流程,有效解决了这一问题。它首先理解视频的整体画面与场景语义,然后聚焦于具体的声源对象,最终响应用户的编辑指令,逐步生成高保真且与视频同步的音频。

为了训练ThinkSound模型,通义语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。该数据集包含了超过2531小时的高质量样本,涵盖了丰富的场景,并特别设计了面向交互编辑的对象级和指令级数据。ThinkSound模型由两个核心部分组成:一个多模态大语言模型负责“思考”推理链,而另一个统一音频生成模型则负责“输出”声音。

在多项权威测试中,ThinkSound模型的表现均优于现有的主流方法,这充分证明了其技术的先进性和实用性。目前,该模型已经正式开源,开发者可以在GitHub、Hugging Face以及魔搭社区等平台上获取相关的代码和模型文件。这一举措无疑将为音频生成技术的发展注入新的活力,推动相关领域的研究和应用不断向前迈进。

对于未来,虽然未具体提及拓展计划,但ThinkSound模型在游戏、虚拟现实(VR)/增强现实(AR)等沉浸式场景中的应用前景被广泛看好。随着技术的不断成熟和完善,相信它将为用户带来更加真实、生动的音频体验。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新