![]()
智东西
作者 李水青
编辑 心缘
智东西2月12日报道,千呼万唤始出来,今天午间,字节跳动终于正式发布其视频创作模型Seedance 2.0。
![]()
▲Seedance 2.0已正式上线豆包
字节称,Seedance 2.0采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,集成了目前业界最全面的多模态内容参考和编辑能力。该项目的更多的技术测评细节及大量案例Demo也随之公布。
在过去几天里,这款在灰度测试阶段的模型已经火遍全球。在国内,《黑神话·悟空》背后的游戏科学创始人兼CEO、制作人冯骥盛赞其为“地表最强”,并称“AIGC的童年时代,结束了。”知名导演贾樟柯在昨晚也发微博称:“Seedance 2.0确实厉害,我准备用它做个短片。”在各大平台,网友用Seedance 2.0制作的视频作品已出现井喷之势。
![]()
▲知名导演贾樟柯评论Seedance 2.0(图源:新浪微博)
在国外,a16z的合伙人Justine Moore感叹“AI视频模型的图灵测试已经被攻克了”;就连马斯克今日也跳出来赞叹“事情正快速发生”,意指技术发展太快了;许多电影制作领域专业人士表示“这个模型让人感到害怕”、“所学习到的90%技能Seedance2.0都能实现”。由于该模型在部分国家和地区尚未开放,甚至不少海外网友费尽心思“翻墙”注册中国手机号来体验Seedance2.0。
![]()
![]()
▲马斯克评论Seedance 2.0(图源:社交平台X)
Seedance 2.0的爆火颇有当年Sora降世时的冲天态势。而这款模型到底有什么实质性的技术提升?随着字节官方项目细节的公布,问题也有了更明确答案。
相比1.5版本,Seedance 2.0的生成质量大幅提升,其在复杂交互和运动场景下的可用率更高,物理准确度、逼真度、可控性显著增强,更加贴合工业级创作场景的需求。
其核心亮点如下:
1、复杂场景下更高可用率:凭借出色的运动稳定性和物理还原能力,模型在多主体交互和复杂运动场景中表现出色,生成可用率达到业界SOTA水平。
2、多模态能力显著强化:基于统一的多模态音视频联合架构训练,支持混合模态输入,允许用户同时输入多达9张图片、3段视频、3段音频以及自然语言指令,模型可参考输入素材中的构图、动作、运镜、特效、声音等元素,打破传统视频生成的素材边界。
3、视频生成可控性大幅提升:模型的指令遵循与一致性表现全面提升,并支持稳定可控的视频延长、视频编辑,让普通用户也能像导演一样,轻松掌控视频创作全流程。
4、深度支持工业级内容创作:模型支持 15 秒高质量多镜头音视频输出,具备双声道音频能力,可实现极致拟真的视听效果,配合参考和编辑能力,能大幅降低影视、广告、电商、游戏等场景的内容制作成本。
这与智东西此前在灰度测试中的一手实测体验不谋而合,我们尝试了从日常场景到超现实场景的多种创作,发现模型对复杂提示词的理解能力明显增强,同时音画同步和视觉效果的呈现也更自然,与前代产品跨代升级明显;同时,模型生成目前也会出现一些细节稳定性不足、不完全符合物理学规律、多人口型匹配欠缺等问题。
目前,Seedance 2.0已上线即梦AI、豆包、火山方舟体验中心等平台。
项目主页:
https://seed.bytedance.com/seedance2_0
体验入口:
1、即梦网页端-视频生成-选择 Seedance 2.0;
2、豆包 App 对话框-Seedance2.0-选择 2.0 模型;
3、火山方舟体验中心-选择 Doubao-Seedance-2.0。
一、Seedance 2.0评测结果一览,运动稳定、指令遵循显著提升
首先来看看Seedance 2.0评测情况,字节联合影视专家构建多模态评测体系,聚焦参考生成、指令响应、运动稳定、镜头语言及音画协同等维度进行了模型评测。
1、运动稳定、指令遵循提升,细节稳定及拟真度仍待优化
视频方面,Seedance 2.0在运动连贯性、指令还原及画面质感上进步显著,复杂动作细腻、结构崩坏减少,可精准呈现大动态场景与微表情,并支持专业运镜与叙事节奏。长脚本响应合理,画面材质、光影与服化道完成度较高。但细节稳定性、拟真度与动态生动性仍有提升空间。
音频方面,双声道音质层次丰富,其可依据提示词适配音效与旋律,视听协同更自然,方言、戏曲及演唱场景的指令识别明显优化。当前短板集中于多人口型同步与偶发音频失真。
![]()
▲Seedance 2.0文字生成视频能力评测
![]()
▲Seedance 2.0图片生成视频能力评测
2、多模态编辑指令响应更完整,多主体一致性待升级
Seedance 2.0覆盖更全面的多模态参考与编辑任务,对参考内容的理解深度和响应精度优势明显,编辑任务指令完整度与画面真实感领先竞品。
其在主体形象、声音还原及动作逻辑、特效风格、剧情叙事等方面一致性表现突出,但多主体一致性、文字还原及复杂编辑效果仍需优化。
![]()
▲Seedance 2.0多模态任务表现评测
二、10大官方案例一览:多模态输入是亮点,多人竞技运动也能生成
除了测评成绩,字节还公布了一大批Seedance 2.0的视频生成案例。
从这些官方案例可以看到,Seedance 2.0突破前代模型的局限,能实现多人竞技等复杂运动生成,音频沉浸感提升,支持多模态输入。创作流程更接近导演级操控,兼具自然度与效率。
1、稳定呈现复杂运动和交互,真实还原物理规律
以双人花滑为例,模型高保真还原同步起跳、空中转体、落冰等复杂时序动作,且严格遵循现实运动规律,有效规避了此前AI视频常见的物理失真。
T2V prompt:竞技级双人花样滑冰现场。开场低机位跟随冰刀滑行,冰屑与反光细节清晰。进入旋转段,男选手轴线微偏出现失误,旋转节奏短暂塌陷。女选手迅速调整重心,眼神冷静并示意“Stay with me”,主动引导男选手重新对齐节奏。随后无缝衔接托举动作,线条干净稳定。高潮为同步跳跃组合,空中姿态笔直,落冰果断,音画完美对齐。女选手身着深蓝花滑裙,男选手为竞技运动装。整体呈现从紧张失误到冷静完成比赛的完整叙事,体现顶级双人花样滑冰中的技术能力与心理强度。
在更细腻的特写镜头中,模型精准还原了光影折射、衣物质感重力反馈及人物环境交互等细微变化,画面细节逼真、物理逻辑严密,几可乱真。

I2V prompt:女孩优雅地晒衣服,晒完接着在桶里拿出另一件,用力抖一抖衣服。
2、支持多模态“全能参考”,创作自由度大幅提升
Seedance 2.0支持图文、音视频等多模态组合输入,能精准解析并调用其中的构图、运镜、动作、音效等元素,甚至可直接遵循文字分镜生成内容,从而拓展创作自由度。

R2V prompt:@图片 1 女孩打破次元壁,连续穿越多幅名画世界,保留真实质感,油画世界呈现 3D 高饱和度动画风格。她站在 @图片 2 的旋转星空下神情激动;接着好奇看着 @图片 3 的情侣拥抱,情侣不好意思地用被子将头遮住;随后与 @图片 4 戴珍珠耳环少女一起自拍;紧接着进入 @图片 5 在两名武士中间穿过;与 @图片 6 一起扮鬼脸呐喊;跑到 @图片 7 蒙娜丽莎身旁,被摸头贴脸;在 @图片 8 女人面前转身换装,二人互行礼;随后与 @图片 9 中的梵高一起画画;最后背对镜头看夕阳,随即转身甜美一笑。对比度高,电影质感,转场丝滑无缝,人物鲜活。

R2V prompt:参考 @图片 1 分镜头脚本,参考 @图片 1 的分镜、景别、运镜、画面和文案,人物角色是 @图片 2,场景是 @图片 3,道具是 @图片 4,创作一段 15s 的治愈片。
3、更强可控性,精准遵循生成和编辑指令
Seedance 2.0可控性显著增强,对复杂脚本的指令还原精准,且能维持主体一致。模型初步具备编导能力,可自主规划镜头与视觉模板。
T2V prompt:马年新春家庭影像,像翻阅相册般快速扫过一排家庭成员单人照,每张照片在镜头掠过的瞬间“活过来”:爷爷、奶奶、父母及孩子伴随微表情做出一组专属动作(如发红包、举玩偶、猫咪摇铃)。不同人物间通过快速平移像翻页般连贯衔接。随着背景中红灯笼与春联动态点亮,画面最终汇聚成一张热闹的全家福合照,全员全员齐喊“马年团圆,马上有福”。音效同步配合欢笑声,氛围由温馨转为欢腾,光影自然流动。
Seedance 2.0新增视频编辑功能,支持定向修改片段、角色、动作或剧情,并可按提示延长视频、生成连贯镜头,实现从“生成”到“续拍”。

R2V prompt:延长视频,镜头跟拍骑棕马的橙衣男人,他加快速度跑到前方一棵开着橙色花朵的大树前,将树枝上的两朵花折下,随后其他人也陆续骑着马跑进镜头内。镜头推进拍摄这个橙衣男人翻身下马,镜头快速环绕他,他转身走向骑着白马的白衣女子,将花献给白衣女子。中国风仕女图风格,3D,欢快民乐,皮影风格,黑白橙色为主调。
4、双声道音频能力,高仿真沉浸音效同步生成
Seedance 2.0音频能力升级,采用双声道立体声技术,支持背景乐、环境音、解说等多轨并行输出,音效高保真、沉浸感强,并与画面节奏精准对齐。

T2V prompt:武侠风格视听大片,竹林里白衣剑客与蓑衣刀客对峙。镜头在两人之间缓慢推移,焦点在雨滴和剑柄之间切换,气氛压抑到极点,只能听见雨声。突然一道惊雷闪过,两人同时冲锋,侧拍镜头极速平移,捕捉泥浆飞溅的脚步。双兵相接瞬间画面切换为极慢动作,清晰展示刀剑震飞雨水形成的圆环激波,以及被剑气切断的竹叶。随后恢复常速两人背对背落地,蓑衣刀客的斗笠裂开,画面戛然而止。
模型音效高度拟真,其可细腻还原玻璃轻刮、织物揉搓等细微声响,沉浸感强。音画时序严格同步,满足专业视听创作要求。

T2V prompt:沉浸式第一视角手部 ASMR 视频。近景特写镜头,暖黄柔光下,一双纤细的手依次轻轻触发不同物品:磨砂玻璃轻刮声、毛绒织物揉搓声、亚克力板轻敲声、气泡纸轻捏声、木质梳子梳齿轻划声。手指动作缓慢轻柔,无背景音乐纯自然触发音,画面氛围松弛治愈。
5、全场景广泛适配,降低专业内容制作门槛
Seedance 2.0场景适配能力强,覆盖商业广告、影视特效、游戏动画等多领域。

I2V prompt:画中人物心虚,眼睛左右看了看探出画框,快速地将手伸出画框拿起可乐喝了一口,并露出一脸满足的表情。这时传来脚步声,画中的人物赶紧将可乐放回原位,此时一位西部牛仔拿起杯子里的可乐走了。结尾镜头推进至纯黑背景下的顶光可乐特写,画面最下方出现艺术感字幕和旁白:“宜口可乐,不可不尝!”。
T2V prompt:20 年代爵士俱乐部风格的查尔斯顿舞。身着金色流苏裙的女舞者与穿条纹西装的男舞者进行高强度表演。动作包含极速切分音步法、空中抛接与大幅度摆臂。镜头采用动态跟随拍摄,穿插足部特写动作。重点表现流苏随每一次踢腿疯狂甩动的物理细节、皮肤上的汗水光泽以及烟雾缭绕的复古胶片颗粒电影质感。背景爵士乐队与欢呼观众烘托出狂热的派对氛围。
结语:AI视频生成从“玩具”走向“工具”
随着Seedance 2.0发布,AI视频生成正加速从“玩具”向“工具”完成关键一跃。产业层面,其统一多模态架构与工业级可控性试图击穿影视、广告、电商等内容生产的高成本壁垒。正如冯骥所说,AIGC的“童年时代”确已结束,赛道竞争正从参数竞赛转向场景落地。
从Seedance 1.5的“音画一体同步生成”,到 Seedance 2.0 的“统一多模态音视频联合生成”,字节在新版本中解决了物理规律遵循及长效一致性的难题,同时也赋予创作者更高的自由度。同时,字节团队称Seedance 2.0也仍未达到完美,其生成结果在细节稳定性、拟真度及动态生动性、物理规律遵循、多人口型匹配等方面仍有优化进步的空间。





京公网安备 11011402013531号