金磊 发自 凹非寺
量子位 | 公众号 QbitAI
这一次,我真的分不清视频到底是不是AI生成的了。
来,咱们先来看一下这段演技飙升的视频片段:
![]()
视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
prompt:女子泣不成声,说台词:“江辰……你一定要活着回来,好吗?……答应我”。女子边说话边将右手抬起抚摸男子的脸。背景音乐伤感。影视级。
这台词、这演技、这眼神、这口型,不说是AI生成的,一般人绝对会以为是哪个电影里的片段。
但重点还不是效果的逼真——
因为这10s的片段,人物对白配音、视频背景音乐和音效,统统都是通过上面的prompt一锅出的。
这就是刚刚火山引擎在FORCE原动力大会上推出的最新豆包视频生成模型Seedance 1.5 Pro。
主打的就是音画高精同步,一镜入戏。
![]()
就这个功能一出,打造一个有趣好玩的小短片,那真是分分钟的事情了。
例如我们以这位AI女主角为原型:
![]()
然后就可以用Seedance 1.5 Pro搞一个“川剧”——《至辣园》:
![]()
视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
从这两个实测案例中,我们不难看出,这次豆包视频生成模型Seedance 1.5 Pro整体亮点可以总结为:
音画高精度同步:不论是背景音乐、音效还是人物对话,都能按照剧情发展保持高度一致。支持多人多方言:原生支持如四川话、粤语、上海话、台湾腔等多种方言,并且精准捕捉方言独特的韵律和情感张力 。影视级效果:不论是视觉、叙事张力、镜头语言,都已经达到了真假难辨的程度。语义理解更强:对于镜头叙事的理解更加准确,有利于专业级内容的创作;同时,抽卡率也更低了。
目前,Seedance 1.5 Pro已经上线即梦AI和豆包APP和火山方舟体验中心,大家都可以去体验哦~
企业用户自12月23日起,也可以在火山引擎使用该模型API。
那么接下来,我们就通过进一步、多角度的实测,来考验一下Seedance 1.5 Pro的水平。
不仅好看,还挺好用
AI视频生成到底够不够真,其实最主要需要关注的就是音画会不会出现bug、够不够一致性,运镜是否够专业,以及涉及到方言等内容时,是否能够精准表达等。
因此,接下来的进一步实测,我们就主要围绕这几个维度来展开。
音画够同步:不会穿帮的那种
我们以即梦为例,Seedance 1.5 Pro生成视频的操作方式是首尾帧的方式
![]()
在这个测试中,我们先上传这张图片:
![]()
然后附上这么一句prompt:
缓缓拉远,镜头带轻微震颤,指尖微蜷(隐带杀势),衣服随风飘动。表情眼睑半垂又骤抬。随后,急速推近面部特写,嘴角扯出极淡的冷笑,压迫感满满,并且冰冷蔑视地说话:“凭你也敢挑衅我的权威!”
来看下生成的效果:
![]()
视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
不难看出,Seedance 1.5 Pro完全get到了prompt要表达的核心要素,并且音画同步得非常精准,是有点电影里东方不败的气场了。
同样的方法,我们再来一句这样的prompt:
黑客帝国风格的发布会。纯黑背景,只有一束顶光。 穿着黑色高领衫的 科技狂人,手里把玩着一枚小小的 AI Pin, 他举起AI pin,用冷静且极具煽动力的男声:“For the last decade, our smartest devices have demanded our eyes. ……” 缓慢推镜头(Dolly In),直到AI Pin 占据整个画面。
![]()
视频地址:
https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
周润发百万级运镜也能复刻
AI视频生成的另一个要素便是运镜的效果了。
在这次实测中,我们就来实测一下Seedance 1.5 Pro是否可以复刻前不久周润发在MAMA颁奖典礼中的名场面——百万级运镜。
我们的首帧和尾帧分别是:
![]()
![]()
复刻周润发百万运镜的prompt是这样的:
西装男子从舞台深处一直往前走,镜头从远推近到人物的面部,镜头环绕切到人物背面,再慢慢往远处推。
![]()
视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
嗯,是有那个feel了~
多个人、多语言,统统都能hold住
正如我们刚才提到的,Seedance 1.5 Pro现在可以支持多个人、多个方言“一锅出”,现在你需要做的就是告诉她“谁,说了什么”。
例如下面的prompt:
画面中的3个角色对话的情节:首先右边熊猫用憨厚的四川话说:“我来自中国四川。” 然后左边的小男孩用西班牙语说:“Yo soy de España”。接着右边的熊猫用憨厚的四川话问:“为什么我们说着不一样的语言,却能对话呢?”最后中间的小女孩用可爱、开心的音色,微笑着说英语:“Because the AI world is full of magic!” 女孩说完后,停顿一下,3个角色相互看着彼此,开心的笑了起来。 全程缓慢的环绕运镜。奇幻的背景音乐。
![]()
视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
从上述多个深度实测来看,Seedance 1.5 Pro确实是做到了音画精准同步、影视级镜头和理解、支持多人对话和方言。
总体体验下来,方便、快,或许就是最直接的感受了,只要不是过于复杂的场景,基本都是“一条过”。
不过目前Seedance 1.5 Pro还不支持参考图生成的方式,不然在操作上会更加灵活。
但除此之外,火山引擎总裁谭待今天在现场还剧透了一个即将推出的新功能——Draft样片。
这个功能要解决的还是AI视频生成中的一个老大难的问题:抽卡。
简单来说,就是在真正出成片之前,你可以先生成一个低分辨率的草稿版视频,用来快速试效果、调方向;同时还能把画面里的关键元素先锁住,确保和最终成片在内容上高度一致。
这样每一次修改,反馈都更明确,也更可控,基本能做到“你看到的,就是最后会得到的”。
按照官方给出的数据,Draft样片能把整体创作效率提升约65%,同时减少60%无效创作成本。
技术底牌也公开了
在AI视频生成领域,过去我们常说声画两张皮,也就是视频归视频,音频归音频,后期强行缝合。
但Seedance 1.5 pro之所以能做到一镜入戏,核心在于它把视觉和听觉从底层逻辑上进行了彻底的同构。
从技术角度来看,主要包含四个方面的工作创新。
![]()
△Seedance 1.5 pro 训推框架图
首先是原生音视频联合生成架构。
不同于传统的串联式架构(先视频后音频),Seedance 1.5 pro 采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生联合生成框架。
它建立了一个双分支的DiT架构,通过深度跨模态信息交互机制,让视觉流和听觉流在潜在空间(Latent Space)里实时通信。
这意味着,当模型生成角色说话的口型时,它同时就在计算对应的音频波形。这种“双向奔赴”的架构,从底层消灭了音画不同步的违和感。
其次是高质量音视频数据框架。
火山方舟团队设计了一个极其复杂的多阶段数据Pipeline。他们不仅筛选了数以亿计的高清视频,还特别注重音视频的一致性配比。
通过自动化标注系统,为视频注入了丰富的视觉描述和匹配的音频语义信息。这套框架不仅能识别“一个男人在说话”,还能精确标注出“四川话、憨厚音色、带有环境回声”等极具细节的特征,为模型打下了深厚的数据底子。
还有一套精细化的后训练优化流程。
为了让生成的视频更有灵性,团队在预训练之外,引入了针对音视频场景定制的RLHF(人类反馈强化学习) 算法。通过建立多维度的奖励模型(Reward Model),从视觉美感、运动连贯性、音频保真度以及最重要的音画匹配度进行全方位调优。
一言蔽之,就是反复磨练它在微表情、运镜张力以及声音情感表达上的处理能力。
最后就是高效推理加速技术。
视频生成一向是巨烧算力的任务,但Seedance 1.5 pro在落地体验上玩了一把大的。
通过多阶段蒸馏技术和高效推理加速框架,团队成功将推理速度提升了 10倍以上。
这意味着专业创作者在即梦或豆包上点击生成,不再需要漫长的进度条折磨,真正实现了所见即所得。
从实验和评测结果上来看,也是印证了上述四项技术创新的正确性。
![]()
在针对视频与音频能力的综合评测中,Seedance 1.5 pro 在审美(Aesthetics)、运动质量(Motion)以及音画对齐(Alignment) 等核心指标上均处于行业领先地位。
特别是在挑战性极高的多语言对白和方言口型匹配任务中,其表现显著优于目前的开源及闭源主流模型。
![]()
AI视频生成,到了真可以上岗时刻
除了Seedance 1.5 pro之外,国内外大模型玩家近期也是密集交卷,视频生成赛道早已进入周更模式。
但观察这些密集发布的新作,不难发现一个共同趋势:它们不再追求单纯的像素级高清,而是在向“够好用”和“够逼真”这两个实用维度急速进化。
豆包视频生成模型Seedance 1.5 pro正是这一趋势的集大成者。
它不仅解决了演技问题(更细腻的表情和动作),更通过原生的音画同步,解决了台词和情绪的融合问题。
这种从单一模态向全模态创作的跨越,让AI视频真正具备了低成本制作短剧、广告片甚至辅助影视创作的实战能力。
![]()
视频地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
或许在不久的将来,我们不需要寻找昂贵的配音演员,不需要复杂的后期对口型,甚至连方言的韵律和环境音的质感,AI都能一次性给到。
AI视频直接上岗时刻,已至。
火山方舟体验中心地址:
https://exp.volcengine.com/ark/vision?launch=seedance
Seedance 1.5 Pro论文地址:
https://arxiv.org/pdf/2512.13507





京公网安备 11011402013531号