![]()
Web3天空之城|城主
写在前面:
本文是一个完整指南, 告诉你如何以一人之力, 使用即梦Seedance2.0 去制作一部完整AI故事长片.
城主私认为, 这是目前最简单也是最强大的AI视频生成流程.
即梦Seedance2.0和一人电影时代的到来
即梦Seedance 2.0的热度显然已经出圈. 最好的证明是体现在昨天大A股票, 所有影视娱乐相关公司股价大涨.
记得上次因为AI推动大A股票大涨, 还是DeepSeek横空出世的时候. 这也从一个侧面说明了字节的Seedance新模型的影响力之大.
虽然城主对这个上涨逻辑不是特别理解 -- 在城主眼里, AI视频生成能力越强大, 传统的影视制作公司就面临着更大的危机. 当然, 对普通网民而言, 这个反应也算是正确.- AI视频生成能力或许可以降低传统影视制作的成本, 所以相关公司的估值也许应该涨.
但, 如果视频AI已经强大到一个人就可以制作出完整电影, 那么成公司建制的团队恐怕就没有优势可言了.
这一天, 已经提前到来了.
城主这里写一个完整的教程, 使用以下这个实际例子大家讲解, 如何轻易的使用即梦Seedance2.0模型, 不分镜, 无须剪辑(简单拼接生成结果即可), 去持续生成长时间的视频故事 , 如果你的积分足够, 是的, 你可以生成完整长度的一部电影.
以下这个3分钟的视频完全使用即梦2.0制作完成, 没有经过分镜, 没有剪辑, 只是简单拼接, 声音和视频一次生成, 没有废片.
(注, 关于Lovart平台封号不退款事件, 在本城公号文章有详细阐述, 有兴趣的同学可以自行查看)
这里要解释一下, 为什么城主强调"不分镜, 无剪辑", 这其实正是即梦Seedance2.0模型的最大突破: 自动分镜和多镜头剪辑合成输出.
这两点对于其他视频模型, 是碾压式, 颠覆性的打击. 也是因为这两点, 让很多专业视频博主在测试过程中"透心凉" - 饭碗要被颠覆了, 这滋味可不太好受.
我们都知道这一天会来,但没想过这一天来得这么快.
在讲解制作流程之前, 城主先展开说一下这两点为什么让所有专业博主和团队感到可怕. (不关心的读者可以直接跳过, 看看后面的完整制作指南部分)
过去的视频生成模型, 无论是首尾帧生成,或者参考生成, 基本上就是单个镜头, 而这些镜头基本上只有画面; 至于可以配音甚至配上对话的视频, 只有最近几个月更新的寥寥几个模型, 才勉强能支持.
对于专业视频从业者而言, 一个单独镜头的完美生成固然很好, 但这仅仅是视频制作里一个小部分而已, 就好像拍出了一个好镜头, 这只是一个基本单元, 如何把这些镜头序列按照视听语言正确的拍摄下来, 然后使用专业的剪辑手法整合在一起, 并且进行完美的配音和音效制作, 再加上配乐等工作, 最后才能输出一个专业级别的片子 - 而不是一个简短的素人短视频。
从一个镜头到一个完整的成片, 这条路要走很久.
更不用说, 使用AI视频生成模型的时候, 如何生成符合要求的镜头序列就有很大的学问, 镜头不是随便生成都可以拼接在一起的, 视听语言有严格的约束. 所以在传统影视团队里, 有专业的分镜导演/分镜师把故事对话脚本拆解为分镜头表, 然后拍摄制作的镜头, 有专业的剪辑师来负责后期合成.
所以在目前的AI视频团队里有"抽卡师"这个说法, 因为通常而言, AI视频流程都通过镜头首帧去生成一个镜头视频, 那么这个首帧是否符合预期, 是否能匹配上下镜头的视听语言(人物位置, 动作, 背景, 等等), 这个镜头首帧图就决定了一切, 特别重要, 一般来说图像生成模型可能无法一次生成完美的图像, 需要多次尝试, 谓之"抽卡"
所以, 这也是为什么Sora出来的时候有如此轰动效应. 因为它有几个重大的突破, 无需首帧图, 输出结果是一个多镜头的合成视频, 同时给视频配上了声音(对话, 环境音), 一步到位 , 输出可以直接发社交媒体, 病毒传播杠杠的. 而对于长视频制作来说, 它的自动参考和多镜头整合可以省却大量的制作时间.
但Sora远不是完美, 首先他完全不允许引用真人参考, 同时在城主的测试中, Sora分镜经常得到一些不满足要求的别扭结果, 仍然需要抽卡, 然后, Sora在快节奏剪辑以及打斗场面的表现还是一言难尽.
总之, sora是一个有所突破, 缺点也很明显的模型.
所以在此之前, Sora被且仅被大量用于镜头表现要求相对较低的AI动画制作里.
现在即梦Seedance 2.0横空出世了. 我们再次看看它解决了什么.
1 完美的分镜头合成输出: 即梦的15秒输出的分镜质量相当之高, 在城主的使用经验来看, 完全符合视听语言, 基本都是一次Pass, 抽卡就是偶尔的需求.
2 首度突破的快节奏剪辑和连续打斗: 这是AI模型第一次让快节奏/动作"武戏"镜头进入影视级的实用阶段 (且不说是否完美, 但AI输出的打斗分镜已经完胜绝大多数的人类了...)
3 即梦模型的良好传统: 声音和视频的同步输出, 完美的对话口型匹配和丰富的人物表情 (这点其他模型甚至都没法和即梦1.5 pk), 完美解决影视"文戏"镜头
关于第三点, 如果现在的视频生成模型还不能同步匹配对话声音, 那就是直接不可用了. 大模型的迭代竞争就是如此残酷.
这里顺带点评一下, 目前Seedance2.0暂停真人图片参考, 城主是100%赞成的, 这里有个大问题, 就是使用名人肖像生成病毒短视频, 即梦2出来的这一两天, 成龙大战xxx, 周星驰恶搞xxx的视频已经开始泛滥, 一张照片加一句话就可以生成, 门槛实在没有, 而名人本身的流量效应直接导致了必然的结果. 之前在B站上大量通过sora生成的科比流量小视频也是同一个情况, 在巨大的流量利益面前, 这个结果是显而易见的.
希望Seedance 加上名人肖像检测后 , 早日常规开放真人图像参考, 毕竟缺少了这个功能, Seedance基本是自断一臂, 实用性也大打折扣.
(注: 2/11早上最新测试, Seedance2.0已经放开了真人素材参考的约束, 不知道是否是针对高级会员的灰度)
而至于有些网友所说, AI模型生成的视频可以被用来做网络欺诈, 城主认为这不仅是Seedance2.0的问题, 而是AI能力的一个普遍副作用. Seedance2.0之前的各个视频生成模型已经有足够的能力做这个事情.
完整指南: 使用Seedance2.0 制作长篇叙事视频, 不分镜, 无剪辑
好了, 前面都是背景, 文章到这里似乎才进入正题.
即梦Seedance2.0 这么强了, 以什么方式, 才能多快好省的最快速度制作出影视级别的长视频呢?
文章给出的这个3分钟生成视频故事, 剔除掉等待生成的时间, 城主真正花的时间在1小时内, 包括了脚本准备和生成后编辑得到完整结果.
如何以这样的速度来持续生成长篇视频呢?
要利用Seedance2.0的强大能力制作电影长度视频, 我们只需解决以下几个问题
• 不出分镜头表, 只用包含场景和对话描述的脚本持续生成
• 保持不同生成视频之间的场景信息和人物信息同步
• 保持人物音色的跨视频同步
1 不出分镜头表, 只用包含场景和对话描述的脚本持续生成
前面城主已经颇费了笔墨来解释, 为什么在此前所有的AI视频生产流程中, 必须的又是最痛苦的过程是把故事脚本拆解成专业分镜头表, 再去抽卡得到符合要求的分镜头首帧图, 然后进行基于首帧生成视频的这个过程.
如果要按照方式来制作长视频, 且不说非专业的同学是否能判断分镜头表的质量, 是否能得到符合要求的首帧图... 按这个方式, 我们其实又回到了老的AI视频生成制作流程.
感谢即梦Seeadacen2.0, 我们现在能力跳过这最费神耗时的一步.
以本文分享的" <疯狂动物城> 番外|Lovart封号不退款事件" 这个视频为例子, 城主把公众号原文输入了gemini pro ( 是的, 城主推荐使用这个目前世界上最强大的LLM模型), 让它基于公众号文章改写为一个分场景对话脚本, prompt随便写都可以, 城主这样写:
"把以上这个文稿拆解为口语对话的双人视频, 使用疯狂动物城的兔子和狐狸组合, 设计多个场景"
直接得到类似如下的简单分场景对话脚本:
-兔警官:受害者,情绪激动。
-老狐狸:行业百晓生,穿着花衬衫或西装,戴墨镜。
第1场:办公室
:兔警官的办公桌,堆满了文件,兔警官正对着计算器抓狂。
(镜头:特写计算器归零的声音,然后拉开,兔警官把一张账单拍在桌子上)
兔警官(崩溃):
老狐狸!出大事了!我遇到刺客了!
我的钱包被“收割”了!4000块钱,只活了10天!
老狐狸(坐在旁边转笔,漫不经心):
哟,这么大的怨气?
4000块?你这是买了多少根胡萝卜?
兔警官(举起手机展示Lovart界面):
什么胡萝卜!是Lovart!
我想着做视频要算力,他们广告说“Pro年费会员”、“无限生成”。
我一咬牙,充了近4000块人民币!
结果呢?1月7号充值,1月17号号就封了!
老狐狸(推眼镜):
10天4000块?这日均消费,你是住在服务器里了吗?
让我猜猜,理由是……“你吃太多了”?
第2场:回忆杀(电脑桌前)
:昏暗的房间,只有电脑屏幕的光照在兔警官脸上。
(镜头:黑白滤镜或回忆边框。兔警官盯着屏幕,一脸震惊)
兔警官(独白):
我当时就收到了一封信。
(画中画:弹出一封邮件截图,红色圆圈圈出 "Account Farming")
兔警官(对着屏幕喊)
"Account Farming"?批量养号?!
老狐狸你评评理,我为了干活,真金白银买的顶级会员,我就这一个号,我没事去“养号”干嘛?
我又不是你们狐狸,长了800个心眼子!
....(以下略)
在以前, 在拿到这个分场景对话脚本后, 我们要去分镜和做镜头首帧图... 而现在, 让我们忘记这一切, 直接使用场景对话脚本生成!
你唯一要做的, 是估计15秒大概说多少字, 做多少动作.
第一个镜头, 城主直接填入即梦2.0的prompt如下:
![]()
读者可以对比前面的分场景对话脚本, 城主直接估算了对话的长度, 把对话脚本第一段贴到了即梦2.0的prompt对话框上, 前面加上一句"迪士尼 <疯狂动物城> 的场景风格和人物风格 "
(注, 当prompt给出的对话文本超出正常人说话的15秒速度, 但还在合理范围内时, 即梦2.0会自动加快说话速度去匹配, 这也是一个很智能能的地方)
这里要讨论一个细节, 对于每一个场景, 是否要提供场景图参考呢? 可以这样做,但从最高效率的角度考虑, 你甚至不需要提供场景图, 只需要提供场景的详细描述, 让即梦2.0发挥就可以了.
因为, 你提供的场景图, 说不定还没有Seedance2.0自己发挥的好...
另外一个细节是, 因为模型已经有了疯狂动物城兔警官和狐狸的信息, 所以城主就不给出角色图了, 对于原创角色, 需要再上传对应的角色图, 然后在人物后加上@参考, 即在prompt里类似"兔警官@图1: 受害者...." 这样 , 不再赘叙.
使用以上的文本, 城主一次性得到了片子的前15秒, 多分镜, 多人对话, 表情, 动作, 一步到位.
在即梦2.0之前, 要做出这15秒, 耗费的时间精力基本上要x20吧, 从调整分镜头表, 生成首帧, 逐个镜头生成, 确认对话语音, 剪辑....
现在这一切都省了, 一键点击完事..
那么, 继续.
2 保持不同生成视频之间的场景信息和人物信息同步
![]()
如以上, 第二段15秒也是很简单的把后续对话文本复制黏贴到prompt输入框.
但是! 有个最重要的细节:
如果同一个场景的后续时间段还是纯文本生成, 毫无疑问会出现场景一致性问题 (假设人物一直提供了角色图参考, 保证一致性)
如何保持多视频之间的一致性, 这是AI长视频制作最关键也最难的一步没有之一.
而即梦Seedance2.0的参考能力把这个折磨了所有创作者太久的关键难点直接打平了..
在Seedance2.0里, 我们只需要使用一个超简单的方法解决一致性问题: 把上一个同场景上一个15秒里的场景画面截取, 包含人物位置和场景信息, 传入当前prompt作为参考图, 如上面截图所示, 城主使用了"场景参考 @图片1 @图片2", 这两张截图就来自前15秒的两个截图:
![]()
为什么是两张呢, 因为在这个场景里, 用两张图才能完整覆盖整个场景, 同时完美包含人物和场景关系.
城主试过只传入第一张图, 因为缺少狐狸背后的场景, 生成视频质量非常好,人物表情超级棒, 就是背景不一致, 非常可惜只有放弃了, -- 这是非常明显的, 模型并不知道狐狸人物背后应该是什么场景, 除非你告诉他.
所以, 再总结一次, 解决问题的方法是 "把前序同一个场景里包含人物和环境的截图(多张以完整覆盖场景信息) 传给下个15秒生成, 作为参考图"
就这么一个简单的操作, 在城主实际使用中, 即梦Seedance2.0就可以确保整个场景和人物位置关系, 甚至到人物服装细节的一致性了...
在Seedance2.0之前, 没有任何模型可以这么轻易而精准的解决这个难题.
这就是连续生成保持一致性所需的唯一技巧. 按照这个简单的操作, 只要你的积分足够, 你可以使用你或者ai创作的分场景对话脚本, 无限生成长时间, 包含丰富的人物对话动作表演的长篇故事视频.
城主用这个方法, 一气呵成生成了3分钟的完整视频, 基本一次生成没有废片. (只有一次是说话语音没有完全匹配上文字, 这似乎是目前会偶发的 )
所有一次输出的这些片段, 直接拼在一起, 不剪辑, 直接成片.
Seedance2.0 强得可怕. 这话可能有点审美疲劳了.
在Seedance2.0 之前, 即便城主这里有一套自行设计搭建的从故事到分镜再到视频生成的完整自动流程, 要做出这么3分钟, 耗时至少数倍以上, 如果分镜不顺利, 十倍以上时间也很正常.
而手搓党? 那就更不可想象了.
这就是先进生产工具导致的生产力革命. 中学课本诚不我欺.
3 保持人物音色的跨视频同步
最后补完一个小但重要的问题, 人物音色这个问题看似小, 但如果不同镜头片段里, 同一个人物说话音色不一致, 这视频是拿不出手的.
在即梦Seedance2.0里, 这个问题也很容易解决: 上传一个声音文件作为参考, 告诉即梦指定角色使用指定音色. 即在prompt开头加上 "xx角色说话使用@声音文件1 这个声音," 即可.
经过城主验证, 即梦Seedance2.0可以明确遵循指定音色生成指定人物对话.
如果城主没记错, 在Seedance2.0之前, 其他模型即使支持画面声音同时生成, 也没有任何一个在生成视频声音时可以指定声音音色.
这里再补充一个小技巧, 我们也可以先不指定音色, 在后期再统一人物音色, 也不麻烦.
这里和大家简单说明使用剪映的音色修改功能.
在剪映里, 点选一个要改音色的视频(如果这个视频有多人对话 需要切成需要修改音色的单独人声)
在默认UI右上角可以选择 "音频- 换音色"
第一次使用时, 先把希望变更的音色的声音克隆进去, 即点选"点击克隆"
![]()
导入一个声音文件, 然后做个命名, 即可. 有两个声音模型, 一种是模仿语气的模型, 一种是基础模型,可以自己试听评测选择, 然后给音色一个名字.
然后在主界面确认选取了需要修改音色的视频, 点击要修改的音色, 应用, 完事.
![]()
所以这个教程到此就结束了.
再回顾一下, 我们不需要考虑分镜, 使用Seedance2.0 直接分段传入场景对话脚本, 一气呵成生成长自动分镜的长视频, 然后直接拼接起来. 基本上, 受限的只是你的积分额度.
当然了, 我们精益求精, 细节可以继续注意, 比如一个长篇故事里, 如果一个场景在后面一段时间后再次继续出现, 那就把此前该场景的截图传进去, 保持一致性.
又比如, 如果希望视频画面总体是什么风格, 可以在开头直接写 比如 "宫崎骏电影风格", 或者"王家卫摄影风格 ", 或者直接类似城主上面的例子, 直接给一个具体电影作为参考.
或者针对特定的场面, 你加上一些镜头描述, 比如要求俯拍, 正面拍, 特写...
主打一个随性所欲. 城主的实操感觉是, 遵循以上大框架, prompt的细节无论你怎么写, 基本上Seedance给出的结果都不会差的...
后记
其实城此刻心情有些复杂.
Seedance2.0的出现, 第一次推翻了过去的"分镜脚本-镜头首帧生成-AI视频镜头生成-剪辑合成" 的AI视频工作流, 把长AI视频的生成门槛拉低到了史无前例的低.
一方面, 这是创作的平权, 从现在开始, 基本你只需要会讲故事(甚至不需要会讲故事, 让AI去讲...), 使用以上简单操作, 就可以得到影视级别的视频长内容.
另一方面, 那整个影视行业的未来是什么, 影视创作的门槛是什么呢?
城主认为已经没有门槛了. 很遗憾, AI会推翻这个传统工业的流程.
个人电影时代已来. 这一天来得比城主想象的要快得多.
历史的洪流不可阻挡, 拥抱吧~~





京公网安备 11011402013531号