当前位置：首页 » 资讯 » 新科技 » 正文

豆包视频生成大升级，网友们的脑洞终于自带音效了。

IP属地中国·北京 差评XPIN 时间：2025-12-20 02:09:41

先给大伙看个视频吧。
很酷炫的大片场景对吧，特效和氛围都很上头。
但如果我告诉你，这片子是纯 AI 生成的呢？AI 的飞速发展，让肉眼好像已经分不清，特效和 AI 的区别了。
但估计大多数人跟我一样，都是光看不练，或者说练过，但《从入门到入土》。
原因就一句话：这玩意太容易劝退了。
想要完成度高一点，就得自己部署个模型，搞点稳定可控的 Workflow 。但那一堆密密麻麻的参数，普通人是调不明白的。

想随便玩玩的，可以上在线网站，但效果相当于抽卡，每抽一发就要花钱。像之前网上大家刷到的 ASMR 切水果，大多都是谷歌的 Veo 之类生成的，国内的大伙也很难用上。
被折磨了许久后，世超最后的答案，是一个大伙耳熟能详的东西——豆包。
你别不信，这浓眉大眼的豆包悄悄进化了。最近，它的视频模型更新到了 Seedance 1.5 pro，而且支持了音画同步，效果媲美谷歌。用完后我只想说，想自己搓AI视频的朋友们，好日子来了。
具体有多强，还是看世超表演吧。
大伙都知道，以前国内大部分视频模型只能演默片，而现在，豆包的声音和画面已经配合得出神入化了。
而且我感觉最突出的特征，是它的理解力，就是不用写什么详细提示词，它会自动理解画面和文字，生成你想配的声音。
首先出场的是我们的老演员，火锅。
我们丢给它一张火锅近照，并直接跟豆包讲：“让图中的金毛进入水坑跑一圈。”

它很好地理解了我的需求，画面里的金毛和水的效果都没啥问题，还很好地区分了在地上和水里的脚步声，甚至知道是户外，配上了鸟叫，整个一生机勃勃万物竞发，理解力没得说吧。
然后我们用同样的提示词，发给谷歌的 Veo 来做了个对比。讲真，世超是觉得大差不差的，二者的物理效果和音效都很逼真，甚至俺觉得豆包更还原了手机麦克风的录音感。
为了证明不是诈胡，我又传了一张双人演奏的图，我也没告诉它哪个是吉他，哪个是贝斯。

结果出来，还真是两种动静都有，甚至还加上了鼓点。差友们可以测一下自己的听力和耳机的表现，看看能不能听见贝斯。
除了图生视频，咱还可以直接不给图，让豆包文生视频，这考验的就是豆包的想象力了。
我让它生成了一段像素风格游戏画面，哥们小的时候巨爱玩。
结果效果真的很逼真，甚至感觉比我记忆里的游戏还好，起飞和落地的碰撞粒子效果都做出来了，背景音乐也是经典的 8-bit 风格。
8-bit 像素艺术风格，勇者在夕阳背景下从左往右奔跑跳跃，带着泥土的粒子特效，画面带有复古 CRT 显示器的扫描线效果。动作流畅，配合复古 8-bit 电子游戏音乐（Chiptune）与跳跃音效，音画节奏紧密协同，完美还原红白机时代的经典游戏画面质感。
2D 游戏有了，3A 大作呢？世超也试了一下，传给它一张黑神话的游戏截图。

结果不仅画面不错，一致性也保持得很好。我们让猴哥乘上了筋斗云向天上飞去，猴哥的模型我目测来看是没怎么崩，而且还有加分项，配上了史诗级的音乐，豆老师在音乐细胞这块可真没得说啊。。。
为了考验豆包的对人脸的一致性，我们又请出了鬼畜区顶流，跟诸葛亮对喷的王朗，不过这次演的是王朗认错人的戏码。

这人物的小表情和小动作都刻画得很有味道啊，看见对方却不认识的短暂迟疑，短暂思索，还有认错人之后的尴尬解围，表演得都非常自然，脸部的一致性也保持得很好。
王朗眉头一皱，发现事情并不简单。
所以呢，整了这么多活，意思是只能发发小视频咯，能不能真有专业电影级的用途呢？
能的，能的。众所周知，影片不仅要画面精致，还得有镜头语言和台词吧。
而这些，豆包真的都能拿下。
我找了张废墟中的男人的图，让它 Cos 一下面壁者罗辑，然后让摄像头绕着罗辑转，模拟智子视角。

豆包的镜头还是很稳的，人物的脸也保持了原有的特征，再加上这性感气泡音，三体人真的不是被颜值折服的吗？
而且，你也不需要有大导演级别的用词，什么推拉摇移跟升甩降，你甚至直接可以说，我就想要个有故事感的镜头。。

于是，它就把镜头紧紧锁在金毛身上了，因为它清楚，这是主角儿。

而，世超最喜欢的，其实是这次模型的面部情感表达。我叽里咕噜瞎敲了一堆提示词给它，什么心酸劳累，什么重燃希望，全喂给它了。
都市风格，中年东亚女性，特写捕捉她的脸上的劳累苦楚，随着夕阳洒在脸上，神情转为充满希望的微表情变化。人物皮肤具备真实胶片质感，浅景深背景虚化。比例 16:9，时长 10s，模型 1.5 Pro。

结果它居然表达得很好，真就给我了一种镜头里的人活了的感觉，眼里充满了这些年的辛酸与泪水。
之前说外国人的 AI 很难驾驭中文，那豆包的外语怎么样呢？
我管你这那的，先发一张美少女试试。
于是我发过去这张图片，然后让她说了一句 “ 组一辈子的乐队吧 ”。

然后复刻得非常成功，BGM 也是很有日本动漫的风格。
最让我惊艳的是，它甚至还能生成，带对话，全外语，且对上口型的动画片段。
更恐怖的是，连音色都大差不差，如果忽略后面有些 bug 的文字，我很难不认为这是原片。
帮我生成一个视频：Shot 1：中景蟹堡王厨房海绵宝宝双手紧握铲子，眼神充满决心。海绵宝宝（声音发颤）：“i want to bring joy to others”Shot 2：特写章鱼哥半侧脸他斜眼看着海绵宝宝，嘴角下撇。章鱼哥（低沉讥讽）：“you can't even fool yourself”。比例 16:9，时长 10s，模型 1.5 Pro。
啥意思，老二次元的春天真的来了？以后想看什么番外都能自己搓，那叫什么旮旯 game 的还得自己攻略，不好不好。
讲道理，世超上网的时候，经常看见豆包，觉得它已经够火够强了，结果这次，憋了个更大的。测完这一圈，我甚至感觉，这是豆包给自己加冕的冠军拼图了。
文字能写、图片能画、音乐能搓，现在再加上个音画同步的视频模型，也算是进化成六边形战士了。
之前咱总觉得国外的月亮圆，Sora、Veo 啥的遥遥领先，现在看来，豆包不仅赶上来了，还更懂咱们中国人的点。
以后，咱们乐子人爽了，评论区到处都是会动会说话的表情包。打工人估计也笑了，以前自己亲自拍的样片，现在给AI发几句指令就能做。
所以趁着人还不多，大伙可以赶紧去试用起来了，有什么抽象的案例，欢迎大伙给世超发过来，我倒要看看差友的脑子里装的都是什么。。。
撰文：不咕
编辑：江江&面线
美编：萱萱
图片、资料来源：
豆包
B站@NexusSeven，《整个宇宙皆为我的玩具》创意AI短片、抖音评论区

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

iPhone 18 Pro七月量产：新增深红色一眼就能认出是新iPhone

机器人租赁价格大幅回落，最低日租金跌破百元

英特尔要回归统一核心设计，预计未来十年推出！

OPPO Find X9 Ultra来了：原生10倍光学变焦回归机圈最强长枪大炮

用户数双双破亿！蚂蚁阿福、支付宝AI付都赢麻了

热度第一、Tokens周调用破3T，MiniMax这个春节杀疯了

全站最新

iPhone 18 Pro七月量产：新增深红色一眼就能认出是新iPhone

机器人租赁价格大幅回落，最低日租金跌破百元

英特尔要回归统一核心设计，预计未来十年推出！

OPPO Find X9 Ultra来了：原生10倍光学变焦回归机圈最强长枪大炮

热门推荐

iPhone 18 Pro七月量产：新增深红色一眼就能认出是新iPhone

机器人租赁价格大幅回落，最低日租金跌破百元

预见金马｜讯兔科技李罗丹：AI开启投资个性化新纪元

蚂蚁披露春节AI业务数据，阿福及AI付用户数双破亿

英特尔要回归统一核心设计，预计未来十年推出！

OPPO Find X9 Ultra来了：原生10倍光学变焦回归机圈最强长枪大炮

白宫发布会一年后仍未实质启动，OpenAI的5000亿美元"星际之门"计划陷入僵局

用户数双双破亿！蚂蚁阿福、支付宝AI付都赢麻了

热度第一、Tokens周调用破3T，MiniMax这个春节杀疯了

揭秘GLM-5技术底牌：「异步强化学习框架Slime」成终极杀招

项目陷入停滞、算力明争暗斗，5000亿美元的星际之门何去何从？

春节重磅！全球资产上涨！关税突变，中方表态！芯片、机器人刷屏！影响一周市场的十大消息

六条路，一条心：商业火箭回收技术全解析

访客日志显示：苹果的软件工程师正在测试 iOS 26.3.1

苹果考虑为 iPhone 18 Pro 和 iPhone 18 Pro Max 推出红色