当前位置: 首页 » 资讯 » 新科技 » 正文

AI视频的天花板被掀翻!测完SkyReels:我亦有成为专业导演的潜质

IP属地 中国·北京 机器之心Pro 时间:2025-11-04 12:14:50



机器之心原创

编辑:杜伟

视频生成快速演进的脚步仍未停歇,就在今天,昆仑万维的新动作又一次突破行业想象。

上个月,AI 视频赛道风起云涌,业界资深玩家纷纷抛下「重磅炸弹」。国外 OpenAI 祭出 Sora 2、马斯克 xAI 推出 Imagine v0.9、谷歌更新 Veo 3.1,国内生数科技推出 Vidu Q2、MiniMax 发布海螺 2.3,这些新模型无一不在质量、速度、时长等方面下足了功夫,音画同步、20 秒时长等亮点功能对于创作者来说已经波澜不惊了。

相较于国外同行,很多国内玩家还有一个明显的不同:不满足于只做 AI 视频产品,也倾向于实现覆盖图像、音视频、数字人、Agent 等全模态的全链路创作,通过模板化配置和流程化指引降低创作门槛,打造更宏大的内容共创平台,突破 AI 视频的应用边界。

这种「模型 + 平台」并行演进的模式更能加速 AI 视频创作的普及,昆仑万维刚刚官宣上线的全新 SkyReels 便是这一思路的集中体现。作为一个一站式、零门槛的多模态 AI 视频创作平台,SkyReels 为 AI 创作者带来了更多的创意玩法。

此次全新 SkyReels 同步发布了多模态视频生成模型 SkyReels V3,并对图片、音频和视频参考等能力进行全方位优化。平台本身还提供无限画布、数字人口播、多模板生成与 Agent 等多种创作模式,供创作者使用。

我们先来欣赏一下官方 demo,AI 视频生成的表现可谓是花样百出、趣味性十足,比如多数字人



在拿到全新 SkyReels 的内测资格之后,我们马上对它来了一波实测。

一手实测

AI 视频生成被玩出花

在测试环节,我们着重体验了 SkyReels 的画布、Agent、视频模板、数字人和视频编辑等亮点功能。这个集多花样玩法于一身的 AI 视频生成平台究竟能带来哪些惊喜?我们接着往下看。



官网地址:https://www.skyreels.ai

无限画布

SkyReels 本次的最大亮点之一,全部 AI 功能和多个全球顶尖 AI 模型都集成于同一个创作空间,一张无限画布,它即是所有 AI 工具,也是图片、视频、音乐等多模态的融合载体。

在无限画布上,你看到的每一个内容,都是一个活的、可交互的积木 —— 所见即所得,效果实时呈现。

你可以在画布上使用任何你想要的全球顶尖的模型,也可以使用任何你想要的 AI 创作功能,更可以添加任何素材到 Chat ,与「超级智能体」(Super Agent)一起完成创作。

整个创作工作是流动的,比如让静态的中国名画《清明上河图》动起来,只需要将原图上传到画布,拖拽原图到图生视频功能,即可在画布生成视频。



输入的原图

我们将图片从画布拖到 Video 功能模块下,然后简单输入要求(让图中的人物动起来),点击生成就可以了:



短短几秒,会动的《清明上河图》就完成了:



看到上面的《清明上河图》视频后,如果你也有一些灵感,想生成更具有年代感和写实的《清明上河图》,可随时添加生成的视频到 Chat,与「超级智能体」(Super Agent)对话,一起头脑风暴,激发更多灵感。



智能体就会从主题、设定、构图、色彩等多角度思考,生成另一个版本的《清明上河图》:如下是生成陶土风格的《清明上河图》。同时利用AI 音频功能为这个视频配上古风古韵的 BGM,并能精细地将视频分辨率提升到 4K:



以上所有操作,都是在画布上实现的。在无限的多模态画布上,灵感不再沿着单一路径生长,而是在多个空间中自由碰撞。每一个素材都可以被无限的连接与重组。图片、视频、音频、文字在同一平面上实时互动,创意由此具备了空间感与生命力。昆仑万维希望,用户不必学习如何掌握 AI,只需自然地去使用它。而 AI 的使命,正是让创作变得更自由、更高效、更简单。

Agent

在前面的画布中,我们已经感受过 Super Agent(全能创意助手)的功能。此外,Agent 模块还包括 Expert Agents,其覆盖四大核心领域的专业团队,当你需要市场营销策略、电子商务运营、虚拟形象塑造或创意故事编写时,都能在 Agent 库中找到对应的专家,高效完成专业任务。

在 Super Agent 的对话框中,你可以自由输入任何想法 —— 无论是生成图片、分析视频,还是进行多模态创作,都能轻松实现。下面这张图片,正是 Super Agent 根据提示自动生成的结果。



An elegant necklace with an 18K yellow gold chain and a white gold pendant shaped like a detailed laurel leaf. The leaf is studded with small round diamonds resembling stars. The pendant's reverse side features a moon silhouette cutout. Displayed on a navy blue velvet neck form. Soft, diffused lighting, ultra-high definition product photography, 8K

如果你对这条项链有了新的灵感 —— 比如想看看模特佩戴后的效果,不妨试试 Expert Agents,系统内置了 28 位行业专家,以专业视角和创意审美为你打造专属造型方案。



这里我们选择了「Virtual Styling Images」这个 Expert Agent,它擅长将时尚单品转化为风格鲜明、极具视觉冲击力的造型照片。然后给出简单指令 —— 以暗黑风格搭配这条项链。

Expert Agent 思考了一会,然后输出 6 张暗黑哥特风格的虚拟试戴图。



我们挑选了其中一张效果如下:从结果可以看出,系统自动调整了光影与肤色匹配,使配饰与人物完美融合,毫无违和感。成品像是出自时尚大片现场,兼具视觉冲击力与艺术构成感。



如果你觉得仅看图片还不过瘾,可以将其转换为视频。只需选择「Multi script Avatar」,系统就能自动为画面生成带语音解说的视频。

值得一提的是,整个过程我们只是上传了图片、简单输入要求,视频配音、字幕等都是智能体自动生成的。过程如下:



最终效果:



这样,一条项链从生成到最终展示,整个过程都一气呵成。从灵感构思到造型搭配,再到视频呈现,每一步都由智能 Agent 完成,几乎无需人工干预,就能获得杂志级的成片效果。

在测试中,我们还发现,用户无需输入复杂的提示词,简单描述一下要求,Agent 即可自动执行多步骤的复杂任务,一键生成可直接交付的完整成果,而非零散的半成品。

而这,仅仅是一个开始。可以想象,不久的将来,这些 Agent 之间将不再是孤立的个体,而是能够相互理解、主动协作的智能网络。届时,创作者只需提出一个想法,系统就能自动组织一支虚拟团队,从策划到产出全流程闭环完成。

模版

SkyReels 模板库迎来全面升级,现已收录近 10 大类、150 余种专业模板,覆盖从视觉设计到智能视频生成的全流程创作需求。

无论是图片生成还是视频制作,用户都能一键完成,从海报设计、电商服装图,到商品演示视频、数字人口播讲解等多种主流场景。



话不多说直接测试。我们上传了一张随手拍摄的图片,画面看起来平平无奇,没有精致的布光,也没有特别的构图。

但你别急,在 SkyReels 模板功能的处理下,这张普通的图片瞬间「活」了起来。



模板库预设了很多热门设计,选择自己心仪的模板,上传图片点击生成就可以了。





最后效果是这样的:

测试下来,和原图一对比,是不是档次一下子就上来了?以后在做商品展示等任务上,原本普通的照片,在这些模版的加持下,整体质感直接提升了好几个层次。不需要专业摄影,也不需要繁琐修图,就能做出「英雄镜头」。

除了商品静态展示上效果突出,模版功能还支持人物动态视频,我们就拿虚拟试衣来讲吧,模板支持多件服饰(如上衣、裤子、帽子)同时试穿,这里我们上传了帽子和裙子。



然后再加上一个在产品画布中制作出的品牌 LOGO,选择品牌广告模板,就会得到这样极富高级感的结果:





如果还想要更有故事感的广告片,选择创意剪辑模板,把刚用过的草帽图片上传就能一键将普通的草帽拍出大片感:



数字人

SkyReels 实现了全场景数字人对口型生成,同时支持单人数字人与单镜头多人多轮对话两种模式,可生成最长 4 分钟连续对口型视频。

其中,单人数字人生成模型既支持单人的图片驱动,也支持视频驱动。最多支持 32 种运镜组合与镜头运动选项,可灵活适配不同叙事需求与画面风格,让生成视频更具镜头语言与电影质感。

这里我们输入一张图片(或者上传视频都可以):



接下来,只需挑选一位配音员即可。SkyReels 内置了丰富的配音资源库,用户可自由选择配音员的语言、性别、年龄与音色风格,轻松匹配不同场景与角色气质。如果你不想使用内置的配音,也可以本地上传配音。

最后,输入你想让数字播报的内容,点击生成就可以了。



播报内容:Equipped with the latest Bluetooth 5.3 technology, SonicAir Pro delivers ultra-stable connections and crystal-clear audio with virtually zero delay. Whether you’re taking calls, listening to music.

在多人对口型模式下,用户只需上传一张包含多位人物的图片,系统即可自动识别并区分不同角色。



随后,用户可根据需要自定义角色编号(男为 Character 1,女为 Character 2),并为每个角色分别选择配音员与输入台词内容。整个流程简洁直观,轻松实现多角色对话的精准控制与个性化创作。



最后,点击生成就可以了。



Character 1:Ladies and gentlemen, prepare to be amazed! Character 2:Because what you’re about to see will change everything! Character 1:It’s bold, it’s brilliant, it’s absolutely unforgettable! Character 2:And trust us—you won’t want to miss a single second!

这几个示例测试下来,我们发现 SkyReels 无论是单人口播、还是多人交流,模型都能准确识别角色、平滑衔接语音节奏,生成的视频对话自然流畅、几乎无延迟感。同时,在单人场景中,新增的 32 种运镜组合让画面表现更具层次与动感。

这也意味着,SkyReels 的出现极大降低了多镜头拍摄与后期配音的制作成本。创作者只需输入音频或脚本,即可快速生成具备完整表演与镜头语言的视频内容。无论是影视级对话拍摄、电商双人口播,还是游戏剧情素材创作,SkyReels 都能在保持高质量表现的同时,实现创意表达与制作效率的双重提升。

视频编辑

最后,我们测试了 SkyReels 的视频编辑功能,特别是视频延长和风格化功能。

首先是视频延长,这项能力要求智能预测下一个镜头的合理延续与场景内容。SkyReels 支持了 Cut-In、Cut-Out、Reverse Shot、Multi-Angle 以及 Cut Away 等切镜方式,生成的延展片段在叙事逻辑与视觉连贯性上高度一致,使画面语言更丰富、更具层次感。



提示:the camera shifts to the back left, focusing on the arched building behind her, and zooms in

至于视频风格转换,SkyReels 目前支持了剪纸、辛普森、钩针毛线、乐高、动森、像素、梵高等风格。先来一个辛普森风格:



再来一个钩针毛线风格:



总的来说,这番测试带给我们的直观感受是:无论是可玩性、互动性,还是整体表现力,SkyReels 都超过了以往体验过的同类产品。并且,该平台将 AI 视频功能的延展性和创作自由度提升到了前所未有的新高度。

昆仑万维还预告了更多「正在路上」的玩法,比如可 prompt 控制,通过自然语言精准调度镜头、驱动角色。从此以后,在 AI 视频生成领域,工具不再是限制你发挥的最大因素,想象力才是。

多模态统一进化

打通图像、音频与视频边界

全新 SkyReels 让我们看到了一站式 AI 视频创作平台的各种新奇和实用玩法,生成的视频在物理运动真实性、镜头连续一致性、声音口型同步性和人物表情细腻度上不可同日而语,观感上无限接近真实。

取得现在的效果,基础模型 SkyReels V3 功不可没。该系列模型基于同一个多模态上下文学习框架进行预训练,并通过子任务精调实现了进一步训练适配优化

首先是基于多主体参考图像的视频生成,需要解决一系列挑战:多主体容易出现形变与身份漂移、背景元素在镜头运动或场景切换中常出现重复、难以同时保持参考图像特征与提示词的语义约束。SkyReels V3 依据多主体与背景参考图像,并结合用户输入的提示词,从而生成符合组合关系与情节发展的视频片段。

这里有两大创新点值得关注:一是对参考图像具备很强的内容保持能力,为此构建了一整套数据处理流程,采用跨帧配对策略从连续视频中选择参考帧,借助图像编辑模型提取主体图像,并同步完成背景补全与语义改写,从而有效规避「复制粘贴」效应。二是训练阶段引入图像 - 视频混合训练机制,支持多分辨率联合训练,显著提升模型泛化性能。

最终,SkyReels V3 在实现主体与背景一致性二者兼得的同时,可以精准响应用户指令要求,并在多项评估基准测试中得到验证,取得了业界闭源 SOTA。



其次是基于音频参考的视频生成。在今年 8 月发布的音频驱动数字人模型 SkyReels-A3 基础上,SkyReels V3 进一步优化了音画对齐和画面质量,并在业内首次支持单镜头多人多轮对话。前文实测中栩栩如生的数字人视频正是基于这项能力生成。

做到这一点需要更好地解决时序与语义同步、多主体空间分配与身份保持、镜头连贯性与视觉协调等层面的技术挑战,为此昆仑万维引入了区域路由机制,让用户可以自由指定画面中的若干角色说话,并将含有角色标签的多段音频按对话顺序拼接,从而实现自然流畅的多轮对话。

为了进一步提升生成视频的整体质量,SkyReels V3 在保持高精准音画同步之外强化了运镜控制,对多种复杂运镜组合的娴熟运用增强了观赏性与艺术表现力。具体来讲,通过输入相机运动参数的监督学习,模型实现了同一时间多个运镜组合控制以及不同时间运镜的丝滑切换。同时,SkyReels V3 利用关键帧插帧方法支持不同的动作幅度,并做到分钟级高质量视频生成

昆仑万维表示,在相同分辨率生成场景下,SkyReels V3 的音画同步效果和整体画面质量接近主流闭源 SOTA 视频模型,比开源竞品更是强了一大截。



最后是基于视频参考的视频生成,这正是 SkyReels V3 同时支持视频延长、视频风格化与视频编辑等多任务的能力根基。面对它们存在的条件理解差异,昆仑万维进行了系统性优化:引入基于参考视频和生成视频关系的空间位置编码和任务特定嵌入,实现统一的任务理解与表征;通过结合 token concat 的灵活性和 channel concat 的高效性,显著减少了 token 数量并保持生成质量;借助历史增强机制实现分钟级视频延长。

其中针对视频延长,SkyReels V3 基于视频语义和用户提示词智能预测后续镜头衔接,支持单镜头延长以及 Cut-In、Cut-Out、Reverse Shot 等多种切镜延长,并在单镜头与切镜延长两类任务上达到业界 SOTA。针对视频风格化,自研一套端到端自动化的风格化数据生成与筛选流程,结合 ControlNet 的可控生成能力与多模态模型的过滤机制,从数据层面确保视频风格化的规模化训练与艺术可控性。针对视频编辑,支持编辑指令、遮罩区域与参考图联合控制,实现增删改替等灵活操作,功能即将上线。

这套连招下来,SkyReels V3 在技术上统一了图像、音频与视频的多模态生成体系,从理解内容到生成画面、掌控叙事全面进化。

人人皆可专业创作

正在加速到来

从大约两年前 Pika、Sora 将人们的目光引入到 AI 视频赛道开始,国内外的玩家们进入到了狂飙模式。每一次模型能力的突破,都在不断拓宽视频生成这一概念的边界。从工具创新到创作方式重塑,这个赛道变得越来越成熟与多元化。

如今的国内厂商,不仅在与谷歌、OpenAI 等国际巨头的正面竞争中不落下风。并且凭借在创作场景、内容生态上的深厚积累,很多更是走出了差异化的发展路径 —— 一边着力提升产品表现,一边押注生态布局。

以昆仑万维为例,其自去年 8 月推出 SkyReels 之后,便开始了在该赛道的突飞猛进。今年以来,昆仑万维先后发布并开源了视频生成模型SkyReels V1、V2 以及 SkyReels A1、A2、A3,每一次都能在国内外创作者圈中留下不错的口碑。



依托这些强大的基础模型,SkyReels 逐渐形成了集图片生成、口播讲解、故事音乐、戏剧、对口型数字人等于一身的 AI 视频创意矩阵,一站式地为媒体、电商、教育、音乐、游戏等各行各业提供高质量、多样性的内容输出。

此次全新 SkyReels 重磅上线,将进一步巩固昆仑万维全球 AI 视频第一梯队的地位,并加速「人人皆可专业视频创作」愿景的到来。

而作为昆仑万维坚定推进人工智能战略、聚焦 AGI 与 AIGC 的核心业务之一,AI 视频与 AI 智能助手、AI 音乐与音频、AI 短剧、AI 社交以及 AI 游戏共同构筑多元矩阵,并成为新时代下营收增长的重要引擎之一。昆仑万维数天前发布的 2025 第三季度报告显示:前三季度,公司实现营业收入 58 亿元,同比增长 52%,公司 AI 相关业务收入同比大幅增长,证明了其多模态一体化战略的前瞻性与商业落地能力。

未来,AI 视频赛道还将解锁怎样的新玩法,期待一波昆仑万维给出的答案。

文中视频链接:https://mp.weixin.qq.com/s/FIkmbXPq31TmWgl2hgeXIQ

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。