当前位置: 首页 » 资讯 » 新科技 » 正文

奥特曼飙河南话,小扎马斯克真人约架!豆包新模型把AI视频玩成「活人」

IP属地 中国·北京 新智元 时间:2025-12-18 22:16:19


新智元报道

编辑:编辑部

就在刚刚,字节Seedance 1.5 pro一上线,网友们都玩疯了!音画同步、方言直出效果太惊艳,文物直播、熊猫唠嗑、小扎和马斯克上演真人角斗,这个模型的升级,将彻底改变未来的AI视频制作流程。

最近的AI视频模型大混战,豆包也下场了!

就在今天,火山引擎在FORCE大会上,正式发布了豆包视频生成模型Seedance 1.5 pro,生成效果一下子就把我们震到了。

比如,被谷歌折磨得不行的OpenAI CEO奥特曼,痛苦扶额飙出河南方言:

唉呀,最近谷歌咋恁牛咧?发那个模型直接给咱干趴下了!昨天的生图模型都没人瞅!

甚至,已经有网红大V用它做出爆款视频了。

老祖宗文物们走进直播间里开始孤身摇,一边还唱着时下最火的热门歌曲,如此脑洞十足的视频,眼看着就要在小红书开始病毒式传播。


不用怀疑,这么逼真的效果,背后都来自Seedance 1.5 pro的加持!

没错,这次的全方位升级,直接让它在AI视频模型中全面领先。

首先,Seedance 1.5 pro可以支持音视频联合生成了,不再局限于视觉维度。

其次,模型的视觉冲击力和运动效果,又一次突破了上限。

多语言的超自然对白、人物情绪与表情细腻的亮点,也让人印象深刻。

这些升级加起来,让模型生成的视频形成了极其强大的影视级叙事张力。

而且,如此丝滑的效果,已经人人可用了,价钱也不贵!

即日起,个人用户可在豆包APP、即梦AI体验;企业用户可在火山方舟体验中心体验,自12月23日起火山引擎也会上线该模型API。




Seedance 1.5 pro到底有多强? 别急,让我们一个一个来拆解。

影视级叙事张力

什么是一个AI视频的灵魂?

显然,视觉模型需要做到的不仅是生成高清画面,还要能驾驭影视级的镜头语言、叙事张力,同时还要捕捉转瞬即逝的微表情。

在这方面,Seedance 1.5 pro此次的增强也相当令人刮目相看。

无论是审讯的女人不屑的表情,还是男人的特写镜头中皱眉、微笑与咽口水等微动作,模型都极强地表现了出来,谍战大片分分钟生成。


在越来越多的实测中,我们惊喜地发现模型具备极其细腻的情绪捕捉能力。

即使没有台词,它也能通过细微的表情变化,来延伸情绪铺垫。

比如在这个地球被三体殖民的末日世界中,Seedance 1.5 pro根据指令详细推测出了故事背景,并且极其细致地演绎出了罗辑悲伤压抑的内心状态,情绪变化细微而富有层次,呈现出大片的细腻质感。


音画高精同步

AI视频的一大难关,就是不仅要「看得见」,更要「听得真」。

当AI从创作「默片」升级到真正的有声视频,生成质量才更经得起现实检验。

为此,我们专门设计了一个办公室场景——职场拍马屁尴尬现场(延迟反映版)。

首先,老板先自己讲了一个明显不好笑的冷笑话,自己先笑了起来,然后脸上非常期待员工们的表情。

员工们的脸部特写显示,空气中充满了「即将假笑」的压迫感。随后大家的职场假笑同时爆发,留下老板在原地困惑。

可以看出,Seedance 1.5 pro完全做到了视觉和听觉在时间上的精确同步。

接下来,让Seedance 1.5 pro帮我们呈现一场扎克伯格和马斯克在八角笼中的硅谷终极对决。

拳拳到肉的厮杀让这场角斗惊心动魄。而整个视频中,无论是两人还是观众,每个声效跟动作都能完美对上。

多人多语言

助力短剧、喜剧和国风

除了音效的升级之外,这次Seedance 1.5 pro还给了我们一个大惊喜。

以往的AI视频里,我们常常被「张口无声」或「闭口说话」的诡异画面劝退——人物口型和台词完全是错位的。

而现在,这个问题被Seedance 1.5 pro彻底解决了。

准备好,接下来是一大波方言袭击!

率先登场的是——活力大湾区,魅力新广州!

熊猫戴着贝雷帽坐在巴黎街角的咖啡馆外,跟法国总统及夫人说着四川话,总统夫人笑着用法语回答。

地道的四川话,让熊猫一张口就令人忍俊不禁。

多人多语言的功能,让短剧、喜剧、国风的内容创作者都更添了一把利器。

短剧中的角色,可以自然地说着自己的家乡话;在喜剧中,能够完美还原方言特有的幽默感和节奏,让笑点更自然。

在昆曲永恒的国粹经典《牡丹亭》中,Seedance 1.5 pro让我们得以穿越回到古代,一窥这部与莎翁《罗密欧与朱丽叶》齐名的唯美爱情悲剧。

如此逼真的效果,大V们只要有脑洞,马上就能产出下一个爆款了!

专业运镜+动态张力

满足高难度场景需求

因为Seedance 1.5 pro优化了运镜控制和动态张力,就能更好地应对高难度的复杂场景生成。

它相对从容地演绎高动态、高冲击力的运动场景。

在下面这个蹦极视频中,它演绎出极强的临场感,真实还原了极限运动的速度与力量。


而模型自发的运镜调度能力,能够执行高难度镜头运动。

我们让它来个恐怖片场景。双胞胎小女孩站在走廊中,随后镜头开始挤压,各种复杂的运镜创造出空间的畸变感,恐怖效果拉满。

产业级场景

在广告电商等产业级场景,Seedance 1.5 pro也有着广阔的应用场景。

比如奥特曼举着一瓶香奈儿No.5,用一口标准的普通话给我们打着广告。

技术突破

让默片走向有声电影

值得一提的是,Seedance 1.5 pro的技术论文也已于近日公开,让我们得以一窥这个强大的模型背后的奥秘与巧思。


论文地址:https://arxiv.org/pdf/2512.13507

长久以来,AI视频生成领域都在上演着令人尴尬的「独角戏」:AI生成的画面流光溢彩,却往往伴随着死一般的寂静,或是被后期硬贴上并不合拍的音效。

这种割裂感,让AI视频始终像是一个精美的玻璃标本——好看,但没有生命。

Seedance 1.5 pro的出现,是一次从「默片时代」向「有声电影」的大跨越。

它抛弃了业内惯用的「先生成视频、再匹配音频」的级联式老路,转而采用原生音视联合生成(Native Audio-Visual Joint Generation)架构。

在它的「大脑」——双分支扩散Transformer(MMDiT)中,像素的光影与声波的震动被视为同一数据的两面。


这意味着,当它构思一只玻璃杯落地时,碎裂的清脆声响并非后期合成,而是与玻璃触地的画面在毫秒间同步诞生的。

这种底层逻辑的重构,带来了对竞品的降维打击。

因此,Seedance 1.5 pro在音频能力上成为市面上所有模型中唯一的八边形战士,定义了顶尖模型新基准。


Seedance 1.5 pro的亮点,不只有极致的音画同步,和更懂「中国味」。

因为依托多阶段蒸馏技术,模型的推理速度暴涨10倍,这就意味着它不再是只有顶级显卡才能供养的昂贵玩具,而是真正能下沉到短剧制作、广告创意一线的生产力工具,从实验室走向工业界。

如果说Sora 2展示了AI对物理世界的视觉想象力,那么Seedance 1.5 pro则赋予了AI倾听与表达的感官通感。

One More Thing

最后,Seedance 1.5 pro即将上线的Draft样片功能,也是让人非常期待。

这个功能,能让我们在抽盲盒阶段,就输出较低分辨率的视频,锁定关键元素,如果确认没问题,才会给你高清成片。

一下子,模型推理成本直接就节约了最高60%,性价比超高。



上:Draft 480p;下:满血1080p

(视频截图)


上:Draft 480p;下:满血1080p

(动图节选)

虽然强敌环伺、竞争升级,但Seedance 1.5 pro,依然稳稳站在浪潮前端。

因为,它真正做到了声画交融、彼此成全,画面、音效和情绪节奏都能融为一体,直接输出影视级成品。

从此,AI视频不再只是「会动的画面+背景音」,而是直接可进入剪辑流程的素材。

未来的视频制作中,声音设计可以从开头就介入构思。

一场AI视频的风暴已经掀起,我们也无比期待,它掀起的另一个浪头。

参考资料:

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。