当前位置: 首页 » 资讯 » 新科技 » 正文

豆包视频生成大升级,网友们的脑洞终于自带音效了。

IP属地 中国·北京 差评XPIN 时间:2025-12-20 02:09:41


先给大伙看个视频吧。

很酷炫的大片场景对吧,特效和氛围都很上头。

但如果我告诉你,这片子是纯 AI 生成的呢?AI 的飞速发展,让肉眼好像已经分不清,特效和 AI 的区别了。

但估计大多数人跟我一样,都是光看不练,或者说练过,但《从入门到入土》。

原因就一句话:这玩意太容易劝退了。

想要完成度高一点,就得自己部署个模型,搞点稳定可控的 Workflow 。但那一堆密密麻麻的参数,普通人是调不明白的。


想随便玩玩的,可以上在线网站,但效果相当于抽卡,每抽一发就要花钱。像之前网上大家刷到的 ASMR 切水果,大多都是谷歌的 Veo 之类生成的,国内的大伙也很难用上。

被折磨了许久后,世超最后的答案,是一个大伙耳熟能详的东西——豆包。

你别不信,这浓眉大眼的豆包悄悄进化了。最近,它的视频模型更新到了 Seedance 1.5 pro,而且支持了音画同步,效果媲美谷歌。用完后我只想说,想自己搓AI视频的朋友们,好日子来了。

具体有多强,还是看世超表演吧。

大伙都知道,以前国内大部分视频模型只能演默片,而现在,豆包的声音和画面已经配合得出神入化了。

而且我感觉最突出的特征,是它的理解力,就是不用写什么详细提示词,它会自动理解画面和文字,生成你想配的声音。

首先出场的是我们的老演员,火锅。

我们丢给它一张火锅近照,并直接跟豆包讲:“让图中的金毛进入水坑跑一圈。”


它很好地理解了我的需求,画面里的金毛和水的效果都没啥问题,还很好地区分了在地上和水里的脚步声,甚至知道是户外,配上了鸟叫,整个一生机勃勃万物竞发,理解力没得说吧。

然后我们用同样的提示词,发给谷歌的 Veo 来做了个对比。讲真,世超是觉得大差不差的,二者的物理效果和音效都很逼真,甚至俺觉得豆包更还原了手机麦克风的录音感。

为了证明不是诈胡,我又传了一张双人演奏的图,我也没告诉它哪个是吉他,哪个是贝斯。


结果出来,还真是两种动静都有,甚至还加上了鼓点。差友们可以测一下自己的听力和耳机的表现,看看能不能听见贝斯。

除了图生视频,咱还可以直接不给图,让豆包文生视频,这考验的就是豆包的想象力了。

我让它生成了一段像素风格游戏画面,哥们小的时候巨爱玩。

结果效果真的很逼真,甚至感觉比我记忆里的游戏还好,起飞和落地的碰撞粒子效果都做出来了,背景音乐也是经典的 8-bit 风格。

8-bit 像素艺术风格,勇者在夕阳背景下从左往右奔跑跳跃,带着泥土的粒子特效,画面带有复古 CRT 显示器的扫描线效果。动作流畅,配合复古 8-bit 电子游戏音乐(Chiptune)与跳跃音效,音画节奏紧密协同,完美还原红白机时代的经典游戏画面质感。

2D 游戏有了,3A 大作呢?世超也试了一下,传给它一张黑神话的游戏截图。


结果不仅画面不错,一致性也保持得很好。我们让猴哥乘上了筋斗云向天上飞去,猴哥的模型我目测来看是没怎么崩,而且还有加分项,配上了史诗级的音乐,豆老师在音乐细胞这块可真没得说啊。。。

为了考验豆包的对人脸的一致性,我们又请出了鬼畜区顶流,跟诸葛亮对喷的王朗,不过这次演的是王朗认错人的戏码。


这人物的小表情和小动作都刻画得很有味道啊,看见对方却不认识的短暂迟疑,短暂思索,还有认错人之后的尴尬解围,表演得都非常自然,脸部的一致性也保持得很好。

王朗眉头一皱,发现事情并不简单。

所以呢,整了这么多活,意思是只能发发小视频咯,能不能真有专业电影级的用途呢?

能的,能的。众所周知,影片不仅要画面精致,还得有镜头语言和台词吧。

而这些,豆包真的都能拿下。

我找了张废墟中的男人的图,让它 Cos 一下面壁者罗辑,然后让摄像头绕着罗辑转,模拟智子视角。


豆包的镜头还是很稳的,人物的脸也保持了原有的特征,再加上这性感气泡音,三体人真的不是被颜值折服的吗?

而且,你也不需要有大导演级别的用词,什么推拉摇移跟升甩降,你甚至直接可以说,我就想要个有故事感的镜头。。


于是,它就把镜头紧紧锁在金毛身上了,因为它清楚,这是主角儿。


而,世超最喜欢的,其实是这次模型的面部情感表达。我叽里咕噜瞎敲了一堆提示词给它,什么心酸劳累,什么重燃希望,全喂给它了。

都市风格,中年东亚女性,特写捕捉她的脸上的劳累苦楚,随着夕阳洒在脸上,神情转为充满希望的微表情变化。人物皮肤具备真实胶片质感,浅景深背景虚化。比例 16:9,时长 10s,模型 1.5 Pro。


结果它居然表达得很好,真就给我了一种镜头里的人活了的感觉,眼里充满了这些年的辛酸与泪水。

之前说外国人的 AI 很难驾驭中文,那豆包的外语怎么样呢?

我管你这那的,先发一张美少女试试。

于是我发过去这张图片,然后让她说了一句 “ 组一辈子的乐队吧 ”。


然后复刻得非常成功,BGM 也是很有日本动漫的风格。

最让我惊艳的是,它甚至还能生成,带对话,全外语,且对上口型的动画片段。

更恐怖的是,连音色都大差不差,如果忽略后面有些 bug 的文字,我很难不认为这是原片。

帮我生成一个视频:Shot 1:中景 蟹堡王厨房海绵宝宝双手紧握铲子,眼神充满决心。海绵宝宝(声音发颤):“i want to bring joy to others”Shot 2:特写 章鱼哥半侧脸他斜眼看着海绵宝宝,嘴角下撇。章鱼哥(低沉讥讽):“you can't even fool yourself”。比例 16:9,时长 10s,模型 1.5 Pro。

啥意思,老二次元的春天真的来了?以后想看什么番外都能自己搓,那叫什么旮旯 game 的还得自己攻略,不好不好。

讲道理,世超上网的时候,经常看见豆包,觉得它已经够火够强了,结果这次,憋了个更大的。测完这一圈,我甚至感觉,这是豆包给自己加冕的冠军拼图了。

文字能写、图片能画、音乐能搓,现在再加上个音画同步的视频模型,也算是进化成六边形战士了。

之前咱总觉得国外的月亮圆,Sora、Veo 啥的遥遥领先,现在看来,豆包不仅赶上来了,还更懂咱们中国人的点。

以后,咱们乐子人爽了,评论区到处都是会动会说话的表情包。打工人估计也笑了,以前自己亲自拍的样片,现在给AI发几句指令就能做

所以趁着人还不多,大伙可以赶紧去试用起来了,有什么抽象的案例,欢迎大伙给世超发过来,我倒要看看差友的脑子里装的都是什么。。。

撰文:不咕

编辑:江江&面线

美编:萱萱

图片、资料来源

豆包

B站@NexusSeven,《整个宇宙皆为我的玩具》创意AI短片、抖音评论区


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。