当前位置：首页 » 资讯 » 新科技 » 正文

通义万相「音频驱动视频生成模型」开源，可生成分钟级视频

IP属地中国·北京 编辑：沈瑾瑜 TechWeb 时间：2025-08-27 12:31:19

8月27日消息，通义万相又迎来重磅开源，全新发布的音频驱动的视频模型Wan2.2-S2V仅需一张图片和一段音频，即可生成面部表情自然、口型一致、肢体动作丝滑电影级数字人视频。模型生成视频时长可达分钟级，可大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率。
据介绍，Wan2.2-S2V可驱动真人、卡通、动物、数字人等多种类型图片，并支持肖像、半身以及全身等任意画幅，上传一段音频后，模型就能让图片中的主体形象完成说话、唱歌和表演等动作。
通义团队基于通义万相的通用视频生成能力，融合了文本引导的全局运动控制和音频驱动的细粒度局部运动，实现了复杂场景的音频驱动视频生成；引入AdaIN和CrossAttention两种控制机制，实现了更准确更动态的音频控制效果。
生成时长上，Wan2.2-S2V单次生成的视频时长可达分钟级。
Wan2.2-S2V通过层次化帧压缩技术，大幅降低了历史帧的Token数量，通过该方式将motion frames(历史参考帧)的长度从数帧拓展到73帧，从而实现了稳定的长视频生成效果。
Wan2.2-S2V还支持文本控制，输入prompt后还可对视频画面进行控制，实现镜头运动、角色轨迹和实体间互动，让视频主体的运动和背景的变化更丰富。
同时通过多分辨率训练、支持模型多分辨率的推理，Wan2.2-S2V可支持不同分辨率场景的视频生成需求, 如竖屏短视频、横屏影视剧。
目前，用户可在Github、HuggingFace和魔搭社区下载模型，通过阿里云百炼调用API，或在通义万相官网直接体验。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

微醺的马斯克聊嗨了：盛赞中国、预言天上的AI

让全公司的AI学会一起办公，OpenAI发布Frontier平台

当马斯克仰望星空：算力成本的终极博弈

”抓马大会不能停“马年年会季趣味潮流IT互联网年会尾牙活动策划方案

“长沙马斯克”新公司估值2个亿！获千万级天使轮融资

商业航天，正在走向“可重复时代”

全站最新

微醺的马斯克聊嗨了：盛赞中国、预言天上的AI

让全公司的AI学会一起办公，OpenAI发布Frontier平台

当马斯克仰望星空：算力成本的终极博弈

”抓马大会不能停“马年年会季趣味潮流IT互联网年会尾牙活动策划方案

热门推荐

腾讯元宝红包口令微信内恢复可复制选项

微醺的马斯克聊嗨了：盛赞中国、预言天上的AI

让全公司的AI学会一起办公，OpenAI发布Frontier平台

当马斯克仰望星空：算力成本的终极博弈

”抓马大会不能停“马年年会季趣味潮流IT互联网年会尾牙活动策划方案

“长沙马斯克”新公司估值2个亿！获千万级天使轮融资

商业航天，正在走向“可重复时代”

全球首个商务会议智能体在浦东“模力社区”发布，区域内已汇聚200多家垂类模型上下游企业

元宝红包口令已能够在微信中复制，还能分享至元宝派

阿维塔06T部分参数公布：首批搭载华为全新一代激光雷达

数字化教学方案获认证梨花教育AI声学学习机开启终身学习新体验

被欧盟认定存在上瘾式设计，TikTok回应

破解AI时代“数字鸿沟”难题，浦东金海文化艺术中心有了这个全国首创

当AI技术涌入短剧漫剧创作会给数字文创产业带去哪些变化？

45亿互联网"红包大战"！AI巨头撒钱推应用抢市场