当前位置：首页 » 资讯 » 新零售 » 正文

通义AI“音效师”：阿里开源首个音频模型ThinkSound

IP属地中国·北京 编辑：陈丽凤凰网科技 时间：2025-07-04 19:02:37

7月4日，阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链（CoT）技术应用于音频生成领域，旨在解决现有视频转音频（V2A）技术对画面动态细节和事件逻辑理解不足的问题。
根据通义语音团队介绍，传统V2A技术常难以精确捕捉视觉与声音的时空关联，导致生成音频与画面关键事件错位。ThinkSound通过引入结构化推理机制，模仿人类音效师的分析过程：首先理解视频整体画面与场景语义，再聚焦具体声源对象，最后响应用户编辑指令，逐步生成高保真且同步的音频。
图源：通义大模型微信公众号
为训练模型，团队构建了首个支持链式推理的多模态音频数据集AudioCoT，包含超2531小时高质量样本，覆盖丰富场景，并设计了面向交互编辑的对象级和指令级数据。ThinkSound由一个多模态大语言模型（负责“思考”推理链）和一个统一音频生成模型（负责“输出”声音）组成。
ThinkSound 音频生成模型的工作流
据悉，ThinkSound在多项权威测试中表现优于现有主流方法。该模型现已开源，开发者可在GitHub、Hugging Face、魔搭社区获取代码和模型。未来将拓展其在游戏、VR/AR等沉浸式场景的应用。
以下附上开源地址：
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound

标签：音频模型 thinksound 音效师 阿里模态画面指令通义 github

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

全站最新

标本制作“神仙打架”！中国动物标本大赛首次在沪举办

今日头条剧透新风向！AI内容过剩时代，“深度”反而更稀缺

今天“世界冥想日”，在这样的亭子里，AI来帮人类“智造”情绪价值

马斯克点赞宇树机器人伴舞视频

热门推荐

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

南城香创始人汪国玉：平台消费券激发消费热情，门店收入利润均提升

通信企业：“推销热售后冷”消磨用户信任

盛银消金 25% 股权再被冻结！新董事长年初刚上任

伊利出席第八届中澳工商界首席执行官圆桌会助力中澳经贸合作提速升级

商查平台企业信息查询新范式：水滴信用企业查询MCP

从“闪购”到“观望”：Prime Day被拉长的背后，是消费者与平台的“双重博弈”

澎湃漫评｜通信企业为何“推销热售后冷”

“电商西进”助力豫企破浪：一枚鱼油的3000公里“暖心”之旅

京东外卖取消超时免单，改为“准时宝”服务