根据通义语音团队介绍,传统V2A技术常难以精确捕捉视觉与声音的时空关联,导致生成音频与画面关键事件错位。ThinkSound由一个多模态大语言模型(负责“思考”推理链)和一个统一音频生成模型(负责“输出”声…
该模型支持视频内容结构化推理生成匹配音频。
11/24 16:08
11/24 16:07
10/31 16:58
10/31 16:56