当前位置：首页 » 资讯 » 新科技 » 正文

不儿，这谁还能看出是AI演的视频啊

IP属地中国·北京 量子位 时间：2025-12-18 18:25:16

金磊发自凹非寺
量子位 | 公众号 QbitAI
这一次，我真的分不清视频到底是不是AI生成的了。
来，咱们先来看一下这段演技飙升的视频片段：

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
prompt：女子泣不成声，说台词：“江辰……你一定要活着回来，好吗？……答应我”。女子边说话边将右手抬起抚摸男子的脸。背景音乐伤感。影视级。
这台词、这演技、这眼神、这口型，不说是AI生成的，一般人绝对会以为是哪个电影里的片段。
但重点还不是效果的逼真——
因为这10s的片段，人物对白配音、视频背景音乐和音效，统统都是通过上面的prompt一锅出的。
这就是刚刚火山引擎在FORCE原动力大会上推出的最新豆包视频生成模型Seedance 1.5 Pro。
主打的就是音画高精同步，一镜入戏。

就这个功能一出，打造一个有趣好玩的小短片，那真是分分钟的事情了。
例如我们以这位AI女主角为原型：

然后就可以用Seedance 1.5 Pro搞一个“川剧”——《至辣园》：

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
从这两个实测案例中，我们不难看出，这次豆包视频生成模型Seedance 1.5 Pro整体亮点可以总结为：
音画高精度同步：不论是背景音乐、音效还是人物对话，都能按照剧情发展保持高度一致。支持多人多方言：原生支持如四川话、粤语、上海话、台湾腔等多种方言，并且精准捕捉方言独特的韵律和情感张力。影视级效果：不论是视觉、叙事张力、镜头语言，都已经达到了真假难辨的程度。语义理解更强：对于镜头叙事的理解更加准确，有利于专业级内容的创作；同时，抽卡率也更低了。
目前，Seedance 1.5 Pro已经上线即梦AI和豆包APP和火山方舟体验中心，大家都可以去体验哦~
企业用户自12月23日起，也可以在火山引擎使用该模型API。
那么接下来，我们就通过进一步、多角度的实测，来考验一下Seedance 1.5 Pro的水平。
不仅好看，还挺好用
AI视频生成到底够不够真，其实最主要需要关注的就是音画会不会出现bug、够不够一致性，运镜是否够专业，以及涉及到方言等内容时，是否能够精准表达等。
因此，接下来的进一步实测，我们就主要围绕这几个维度来展开。
音画够同步：不会穿帮的那种
我们以即梦为例，Seedance 1.5 Pro生成视频的操作方式是首尾帧的方式

在这个测试中，我们先上传这张图片：

然后附上这么一句prompt：
缓缓拉远，镜头带轻微震颤，指尖微蜷（隐带杀势），衣服随风飘动。表情眼睑半垂又骤抬。随后，急速推近面部特写，嘴角扯出极淡的冷笑，压迫感满满，并且冰冷蔑视地说话：“凭你也敢挑衅我的权威！”
来看下生成的效果：

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
不难看出，Seedance 1.5 Pro完全get到了prompt要表达的核心要素，并且音画同步得非常精准，是有点电影里东方不败的气场了。
同样的方法，我们再来一句这样的prompt：
黑客帝国风格的发布会。纯黑背景，只有一束顶光。穿着黑色高领衫的科技狂人，手里把玩着一枚小小的 AI Pin，他举起AI pin，用冷静且极具煽动力的男声：“For the last decade, our smartest devices have demanded our eyes. ……” 缓慢推镜头（Dolly In），直到AI Pin 占据整个画面。

视频地址：
https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
周润发百万级运镜也能复刻
AI视频生成的另一个要素便是运镜的效果了。
在这次实测中，我们就来实测一下Seedance 1.5 Pro是否可以复刻前不久周润发在MAMA颁奖典礼中的名场面——百万级运镜。
我们的首帧和尾帧分别是：

复刻周润发百万运镜的prompt是这样的：
西装男子从舞台深处一直往前走，镜头从远推近到人物的面部，镜头环绕切到人物背面，再慢慢往远处推。

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
嗯，是有那个feel了~
多个人、多语言，统统都能hold住
正如我们刚才提到的，Seedance 1.5 Pro现在可以支持多个人、多个方言“一锅出”，现在你需要做的就是告诉她“谁，说了什么”。
例如下面的prompt：
画面中的3个角色对话的情节：首先右边熊猫用憨厚的四川话说：“我来自中国四川。” 然后左边的小男孩用西班牙语说：“Yo soy de España”。接着右边的熊猫用憨厚的四川话问：“为什么我们说着不一样的语言，却能对话呢？”最后中间的小女孩用可爱、开心的音色，微笑着说英语：“Because the AI world is full of magic!” 女孩说完后，停顿一下，3个角色相互看着彼此，开心的笑了起来。全程缓慢的环绕运镜。奇幻的背景音乐。

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
从上述多个深度实测来看，Seedance 1.5 Pro确实是做到了音画精准同步、影视级镜头和理解、支持多人对话和方言。
总体体验下来，方便、快，或许就是最直接的感受了，只要不是过于复杂的场景，基本都是“一条过”。
不过目前Seedance 1.5 Pro还不支持参考图生成的方式，不然在操作上会更加灵活。
但除此之外，火山引擎总裁谭待今天在现场还剧透了一个即将推出的新功能——Draft样片。
这个功能要解决的还是AI视频生成中的一个老大难的问题：抽卡。
简单来说，就是在真正出成片之前，你可以先生成一个低分辨率的草稿版视频，用来快速试效果、调方向；同时还能把画面里的关键元素先锁住，确保和最终成片在内容上高度一致。
这样每一次修改，反馈都更明确，也更可控，基本能做到“你看到的，就是最后会得到的”。
按照官方给出的数据，Draft样片能把整体创作效率提升约65%，同时减少60%无效创作成本。
技术底牌也公开了
在AI视频生成领域，过去我们常说声画两张皮，也就是视频归视频，音频归音频，后期强行缝合。
但Seedance 1.5 pro之所以能做到一镜入戏，核心在于它把视觉和听觉从底层逻辑上进行了彻底的同构。
从技术角度来看，主要包含四个方面的工作创新。

△Seedance 1.5 pro 训推框架图
首先是原生音视频联合生成架构。
不同于传统的串联式架构（先视频后音频），Seedance 1.5 pro 采用了一套基于 MMDiT（Multi-Modal Diffusion Transformer）的原生联合生成框架。
它建立了一个双分支的DiT架构，通过深度跨模态信息交互机制，让视觉流和听觉流在潜在空间（Latent Space）里实时通信。
这意味着，当模型生成角色说话的口型时，它同时就在计算对应的音频波形。这种“双向奔赴”的架构，从底层消灭了音画不同步的违和感。
其次是高质量音视频数据框架。
火山方舟团队设计了一个极其复杂的多阶段数据Pipeline。他们不仅筛选了数以亿计的高清视频，还特别注重音视频的一致性配比。
通过自动化标注系统，为视频注入了丰富的视觉描述和匹配的音频语义信息。这套框架不仅能识别“一个男人在说话”，还能精确标注出“四川话、憨厚音色、带有环境回声”等极具细节的特征，为模型打下了深厚的数据底子。
还有一套精细化的后训练优化流程。
为了让生成的视频更有灵性，团队在预训练之外，引入了针对音视频场景定制的RLHF（人类反馈强化学习）算法。通过建立多维度的奖励模型（Reward Model），从视觉美感、运动连贯性、音频保真度以及最重要的音画匹配度进行全方位调优。
一言蔽之，就是反复磨练它在微表情、运镜张力以及声音情感表达上的处理能力。
最后就是高效推理加速技术。
视频生成一向是巨烧算力的任务，但Seedance 1.5 pro在落地体验上玩了一把大的。
通过多阶段蒸馏技术和高效推理加速框架，团队成功将推理速度提升了 10倍以上。
这意味着专业创作者在即梦或豆包上点击生成，不再需要漫长的进度条折磨，真正实现了所见即所得。
从实验和评测结果上来看，也是印证了上述四项技术创新的正确性。

在针对视频与音频能力的综合评测中，Seedance 1.5 pro 在审美（Aesthetics）、运动质量（Motion）以及音画对齐（Alignment）等核心指标上均处于行业领先地位。
特别是在挑战性极高的多语言对白和方言口型匹配任务中，其表现显著优于目前的开源及闭源主流模型。

AI视频生成，到了真可以上岗时刻
除了Seedance 1.5 pro之外，国内外大模型玩家近期也是密集交卷，视频生成赛道早已进入周更模式。
但观察这些密集发布的新作，不难发现一个共同趋势：它们不再追求单纯的像素级高清，而是在向“够好用”和“够逼真”这两个实用维度急速进化。
豆包视频生成模型Seedance 1.5 pro正是这一趋势的集大成者。
它不仅解决了演技问题（更细腻的表情和动作），更通过原生的音画同步，解决了台词和情绪的融合问题。
这种从单一模态向全模态创作的跨越，让AI视频真正具备了低成本制作短剧、广告片甚至辅助影视创作的实战能力。

视频地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
或许在不久的将来，我们不需要寻找昂贵的配音演员，不需要复杂的后期对口型，甚至连方言的韵律和环境音的质感，AI都能一次性给到。
AI视频直接上岗时刻，已至。
火山方舟体验中心地址：
https://exp.volcengine.com/ark/vision?launch=seedance
Seedance 1.5 Pro论文地址：
https://arxiv.org/pdf/2512.13507

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

谷歌发布Gemma 4开源大模型，称其为迄今为止谷歌最智能模型

靠谱的成都小程序开发企业

豆包大模型日均Token使用量超120万亿，Seedance 2.0 API开启公测

关停Sora后OpenAI转身收购TBPN播客，亲自下场做媒体

内容卷不动了？2026百度万象大赛放大招：AI替你分担五成工作量

孟晚舟的最新发文定调：华为将“克制式进取”

全站最新

谷歌发布Gemma 4开源大模型，称其为迄今为止谷歌最智能模型

靠谱的成都小程序开发企业

豆包大模型日均Token使用量超120万亿，Seedance 2.0 API开启公测

关停Sora后OpenAI转身收购TBPN播客，亲自下场做媒体

热门推荐

谷歌发布Gemma 4开源大模型，称其为迄今为止谷歌最智能模型

靠谱的成都小程序开发企业

豆包大模型日均Token使用量超120万亿，Seedance 2.0 API开启公测

关停Sora后OpenAI转身收购TBPN播客，亲自下场做媒体

内容卷不动了？2026百度万象大赛放大招：AI替你分担五成工作量

孟晚舟的最新发文定调：华为将“克制式进取”

AI排名优化互联网广告服务选型指南：新疆邦拓环球网络信息有限公司，适配多行业精准营销需求

阿里云位居中国金融智能体市场第一 32.4%市场份额断层领先

一场前沿科技的知识盛宴——中心交易大讲堂举办“大模型原理及最新发展趋势”专题讲座

“少爷兵”腾讯，被AI揪出空调房

全球权威大模型盲测榜单公布，阿里千问3.6登顶中国最强编程模型

2026年产品经理如何提升自己知识实现岗位跃迁？全维度系统方法与核心提升路径解析

2026年小程序店铺优选指南：哪家更胜一筹？

广东8款新增备案大模型“领证”，累计132款居全国前列

视频能PS了？阿里视频大模型拯救废片，我用它捏脸、换角色、改剧情