当前位置：首页 » 资讯 » 新科技 » 正文

滑铁卢大学联合可灵提出UniVideo：视频理解、生成、编辑多模态

IP属地中国·北京 机器之心Pro 时间：2026-03-05 16:15:49

统一多模态模型在多模态内容理解与生成方面已展现出良好效果，但目前仍主要局限于图像领域。
滑铁卢大学与快手可灵团队提出 UniVideo，一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型。
UniVideo 采用双流架构，将多模态大语言模型（MLLM）的指令理解与推理能力，与多模态扩散 Transformer（MM-DiT）的高质量视觉生成能力相结合。不同于以往依赖任务特定设计或受限于单一模态的方法，UniVideo 能够理解多模态指令、区分不同任务类型，并在多项基准上取得接近或超过现有最优方法（SoTA）的性能。
更重要的是，UniVideo 无需额外的任务特定设计，即可泛化到未见过的任务及新的任务组合。这意味着，视频生成与编辑不必再被拆分为多个孤立模型，统一建模本身就带来了更强的扩展性。
目前，该工作已被 ICLR 2026 接收，代码已开源。

项目主页：https://congwei1230.github.io/UniVideo/论文地址：https://arxiv.org/abs/2510.08377开源代码：https://github.com/KlingTeam/UniVideo开源模型：https://huggingface.co/KwaiVGI/UniVideo
效果展示

模型架构

UniVideo 由两个核心组件组成：多模态大语言模型（MLLM）和多模态扩散 Transformer（MM-DiT）。
MLLM 负责多模态指令理解与语义推理，能够接受文本、图像和视频输入，并生成高层语义表示或文本响应。MM-DiT 专注于视觉内容生成，在潜空间中进行条件图像 / 视频建模。
UniVideo 从 MLLM 的最后一层隐藏状态中提取多模态语义特征，这些特征编码了丰富的跨模态语义信息。通过可训练的 MLP Connector，将其对齐并注入到 MM-DiT 的理解流（understanding stream）中，用于高层语义条件建模。同时，视觉信号通过 VAE 编码后输入至 MM-DiT 的生成流（generation stream），以保留细粒度的视觉信息。
这种双流设计同时具备强语义基础与高保真视觉重建能力，对于视频编辑以及需要保持身份一致性的上下文生成任务尤为关键。
统一 10 个多模态任务
UniVideo 将多种视频生成与编辑任务统一到单一的多模态指令范式中，并通过 MLLM + MM-DiT 的双流架构实现灵活的任务调度与生成。
多模态理解（Image / Video → Text，I/V2T）
图像或视频输入由 MLLM 直接处理，并生成对应的文本输出。

文本到图像 / 视频生成（Text → Image / Video，T2I / T2V）
文本指令由 MLLM 编码为语义表示，并作为条件输入，引导 MM-DiT 生成图像或视频内容。

图像到视频生成（Image → Video，I2V）
输入图像与文本指令由 MLLM 联合理解并生成语义条件；同时，图像的视觉信息与视频潜变量一同输入 MM-DiT，以约束并引导视频生成过程。

图像 / 视频编辑（Image / Video Editing，I2I / V2V）
输入图像或视频及编辑指令由 MLLM 解析为语义条件，MM-DiT 在保持原始内容结构的基础上完成条件编辑生成

上下文图像 / 视频生成与编辑（Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V）
在这类任务中，通常存在多个视觉条件（如多张参考图像或参考视频）。所有视觉信号经 VAE 编码后统一填充至相同形状，并沿时间维度拼接，通过自注意力机制进行融合，从而支持 ID 保持和跨上下文生成与编辑。

实验结果
在定量评测中，UniVideo 在各项评测指标上均优于任务特定（task-specific）的基线方法，并在多数实验设置下达到或超过当前最优方法（SoTA）。
下图展示了 UniVideo 在上下文生成与编辑任务上的定量对比结果。

Key Insight：统一模型具备良好的泛化能力
团队从两个方面验证了 UniVideo 统一架构的泛化能力：
（1）对未见视频编辑指令的泛化能力：
尽管 UniVideo 未在 free-form 视频编辑指令数据上进行训练，但通过联合多任务训练，模型成功将图像编辑能力迁移至视频领域，实现了对 free-form 视频编辑指令的泛化。
（2）对新任务组合的泛化能力：
即使在训练阶段未显式包含相关任务组合，UniVideo 仍能够自然泛化到新的任务组合设置，展现出统一多模态框架在组合泛化方面的显著优势。
下图给出了 UniVideo 泛化到视频风格化与环境编辑任务的定性示例：

总结

UniVideo 通过统一的多模态指令范式与双流架构，实现了视频理解、生成与编辑任务的统一建模。实验结果表明，UniVideo 在多项定量评测中优于任务特定的单任务方法，并在多数设置下达到或超过当前最优水平。
更重要的是，UniVideo 可泛化到未见过的视频编辑指令和新的任务组合。这表明，统一多模态建模不仅可行，而且可能是一条更具扩展性的方向。
作者介绍

本文第一作者魏聪，滑铁卢大学博士三年级在读，导师为陈文虎教授。
个人主页：https://congwei1230.github.io/

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

阿里千问核心负责人林俊旸宣布卸任，消息称阿里千问团队或将分拆

科技部部长阴和俊：中国开源大模型领跑全球，芯片攻关取得新突破，人形机器人大放异彩

阿里正式批准林俊旸辞职！将成立基础模型支持小组、坚持开源、加大人才投入

小米机器人已经做了六年！雷军首谈春晚机器人爆火：行业欣欣向荣

阿里成立基础模型支持小组批准千问核心负责人林俊旸离职

阿里CEO回应千问负责人林俊旸离任：已批准辞职，由CTO周靖人推进后续工作

全站最新

阿里千问核心负责人林俊旸宣布卸任，消息称阿里千问团队或将分拆

科技部部长阴和俊：中国开源大模型领跑全球，芯片攻关取得新突破，人形机器人大放异彩

阿里正式批准林俊旸辞职！将成立基础模型支持小组、坚持开源、加大人才投入

小米机器人已经做了六年！雷军首谈春晚机器人爆火：行业欣欣向荣

热门推荐

阿里千问核心负责人林俊旸宣布卸任，消息称阿里千问团队或将分拆

科技部部长阴和俊：中国开源大模型领跑全球，芯片攻关取得新突破，人形机器人大放异彩

阿里正式批准林俊旸辞职！将成立基础模型支持小组、坚持开源、加大人才投入

小米机器人已经做了六年！雷军首谈春晚机器人爆火：行业欣欣向荣

阿里成立基础模型支持小组批准千问核心负责人林俊旸离职

阿里CEO回应千问负责人林俊旸离任：已批准辞职，由CTO周靖人推进后续工作

京东曹鹏：推动AI与制造、养老、政务深度融合

海尔智家定义 AI 职场新标准！首发“AI+ 细分岗位能力模型”：6 大维度、24 项指标，员工 AI 效率狂飙 21%

OpenAI测试ChatGPT写作模板功能，支持上传样本复刻个人文风

纽约州拟立法禁止 AI 提供医疗与法律建议

三次推迟后依然出现故障，日本商业火箭又炸了

英伟达75%毛利率能否持续？关键看台积电议价权

点火起飞后不久解体爆炸！日本又一火箭发射失败

禾赛科技：荣耀首款人形机器人ROBOT搭载旗下JT系列激光雷达

谷歌DeepMind向千问团队抛橄榄枝