当前位置：首页 » 资讯 » 新科技 » 正文

阿里通义实验室开源音频生成新模型ThinkSound，革新视频转音频技术

IP属地中国·北京 编辑：任飞扬大力财经 时间：2025-07-06 08:06:51

阿里通义实验室近期在音频技术领域取得了突破性进展，正式推出了名为ThinkSound的音频生成模型，并宣布将其开源。这一创新之举标志着音频生成技术迈入了一个全新的阶段，特别是将思维链（CoT）技术首次应用于音频生成领域。
据通义语音团队介绍，传统的视频转音频（V2A）技术往往难以精准捕捉视觉与声音之间的时空关联，导致生成的音频与视频中的关键事件存在错位现象。而ThinkSound模型则通过引入结构化推理机制，模拟人类音效师的工作流程，有效解决了这一问题。它首先理解视频的整体画面与场景语义，然后聚焦于具体的声源对象，最终响应用户的编辑指令，逐步生成高保真且与视频同步的音频。
为了训练ThinkSound模型，通义语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。该数据集包含了超过2531小时的高质量样本，涵盖了丰富的场景，并特别设计了面向交互编辑的对象级和指令级数据。ThinkSound模型由两个核心部分组成：一个多模态大语言模型负责“思考”推理链，而另一个统一音频生成模型则负责“输出”声音。
在多项权威测试中，ThinkSound模型的表现均优于现有的主流方法，这充分证明了其技术的先进性和实用性。目前，该模型已经正式开源，开发者可以在GitHub、Hugging Face以及魔搭社区等平台上获取相关的代码和模型文件。这一举措无疑将为音频生成技术的发展注入新的活力，推动相关领域的研究和应用不断向前迈进。
对于未来，虽然未具体提及拓展计划，但ThinkSound模型在游戏、虚拟现实（VR）/增强现实（AR）等沉浸式场景中的应用前景被广泛看好。随着技术的不断成熟和完善，相信它将为用户带来更加真实、生动的音频体验。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

iPhone 17系列开售，华为出击！

iPhone17 PM橙色版黄牛加价涨至1000元

外卖大战中场观察：三巨头不再上头，“小甜水”痛并快乐

第八届IEEE国际无人系统大会举办科技“翅膀”赋能文化腾飞

供销大集：截至9月顺客隆社区团购业务订单量已超去年全年

英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了

全站最新

iPhone 17系列开售，华为出击！

iPhone17 PM橙色版黄牛加价涨至1000元

外卖大战中场观察：三巨头不再上头，“小甜水”痛并快乐

第八届IEEE国际无人系统大会举办科技“翅膀”赋能文化腾飞

热门推荐

Meta重磅产品亮相，AI眼镜概念股强势崛起

中国茶饮，「占领」华尔街

近8000万元！跨界押注屋顶光伏，长高电新背后逻辑是什么？

CIS三巨头半年报透视，增长密码藏在哪？

资本涌入脑机接口：融资频创新高，企业格局一览

上半年增收不增利，民生银行活成了“夹心饼干”

迎驾贡酒上半年净利润下降18.19%：存货创新高，76亿目标如何兑现？

独家对话前零跑联创吴保军：瞄准电动车市场，欲打造“汽车界爱马仕”

iPhone17 PM橙色版黄牛加价涨至1000元

翟欣欣一审获刑12年，并处罚金10万元赔偿7万余元

影视飓风员工怒怼代理公司：试驾车提供假临牌，中间传个话赚百万

OpenAI惊爆AI"阴谋论"！模型会故意欺骗人类，训练越多反而越狡猾

微软在 Teams 中引入 AI 助手，提升工作效率

英伟达50亿美元入股英特尔，芯片巨头联手重塑AI格局

Luma AI 发布 Ray3：首款支持 HDR 视频生成的创新模型