阿里通义实验室近期在音频技术领域取得了突破性进展,正式推出了名为ThinkSound的音频生成模型,并宣布将其开源。 为了训练ThinkSound模型,通义语音团队构建了首个支持链式推理的多模态音频数据集Au…
根据通义语音团队介绍,传统V2A技术常难以精确捕捉视觉与声音的时空关联,导致生成音频与画面关键事件错位。ThinkSound由一个多模态大语言模型(负责“思考”推理链)和一个统一音频生成模型(负责“输出”声…
该模型支持视频内容结构化推理生成匹配音频。
08/20 10:25
08/20 10:24
08/20 10:23
08/20 10:22