当前位置: 首页 » 资讯 » 新科技 » 正文

字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出20种玩法

IP属地 中国·北京 编辑:顾青青 机器之心Pro 时间:2025-09-08 18:18:11

机器之心报道

编辑:杨文

打开多模态自由创作的大门。

谷歌 Nano Banana 掀起的全球创作狂欢尚未消退之际,字节又玩了把大的。

近日,字节跳动开始内测最新的豆包・图像创作模型 Seedream 4.0。与此前版本相比,Seedream 4.0 首次支持多模态生图,同一模型可以实现文生图、图像编辑、组图生成,并在核心能力上迎来了显著提升:

主体一致性增强:无论是文本驱动还是图像驱动,都能稳健保持主体特征,避免「失真」与「错位」。



提示词:将平视视角改为俯视视角,将近景改为中景,并把画面比例改为 16:9。

多图灵活创作:支持文本、图像的多维组合输入,轻松实现参考生成、融合生成与编辑。



提示词:根据参考图中两个男生的形象,生成一组动作片分镜,原比例。

超高清、超高速直出:最高支持 4K 分辨率输出,且推理效率大幅优化,2K 大分辨率图像生成用时仅需数秒。



从更长远的技术发展视角来看,多模态自由创作正成为大势所趋。无论是文本驱动、图像驱动,还是多图融合,用户都期待能以更自然、更随心的方式与 AI 协作。

Seedream 4.0 内测一出,网友们就把它玩出了花。

比如基于多图融合能力,上传两张角色照片,再加上火柴人自拍动作,即可实现同框合影。



提示词:将图1男子和图2女子合进一张画面,参考图3姿势。

或者动动嘴就能给模特一键换时尚穿搭:



提示词:给图 1 模特穿上图 2 的穿搭。

我们也在第一时间拿到了内测资格。据机器之心了解,字节 Seedream 4.0 模型将很快在豆包、即梦全量上线,并通过火山引擎开放给企业客户

接下来还是老规矩,我们亲自上手体验一番,看看字节 Seedream 4.0 成色几何。

一手实测:多模态无缝融合释放创作自由

如今,图像生成已经不再是从文本到画面的单向创作。用户需要的也不仅仅是高质量的图像输出,更是一个能够在多模态输入间灵活切换、在生成与编辑之间无缝衔接的完整创作工具。

无论是单图参考、多图组合,还是基于文本与图像的自由融合,Seedream 4.0 都能在同一模型下完成从生成到编辑的一站式创作,让用户在效率与可控性上同时获得新的自由度。

多图输入、输出

先来试试它的多图融合能力。

我们上传了马斯克、奥特曼这对劲敌的半身照,以及一张手绘自拍动作参考图,并在提示词中指定将两位人物合并到同一画面,完成一张「世纪大和解」的自拍照。

模型不仅准确捕捉了参考姿势,还能在保证两位主体身份特征的同时,实现自然的构图与表情协调。不同来源的图像在风格与细节上被平滑统一,没有出现常见的「换脸违和感」或「姿势错乱」问题。



提示词:将图 1 男子和图 2 男子合进一张画面,参考图 3 姿势

除了多图输入,Seedream 4.0 还支持多图输出。比如上传一张情侣正面照,让它生成一组爱情片分镜。

Seedream 4.0 能够在严格遵循人物外观一致性的基础上,设计出超市购物、雨中撑伞等浪漫场景。这种输出方式避免了传统生成模型常见的形象漂移问题,让用户得到一整套故事化的图像。



提示词:根据参考图男生和女生的形象,生成一组爱情片分镜,原比例,不要改变男生和女生的相貌,不要改变他们的发型、衣服。

深度意图理解

在深度意图理解方面,Seedream 4.0 也展现出强大的场景重建能力。

我们上传了一张室内设计的线稿图,并要求将其改造成真实场景。模型实现了细节上的高度还原,从沙发、桌子、台灯等主要家具,到画框、绿植等小型装饰,都能做到几乎 1:1 的精准复刻。

这意味着,Seedream 4.0 并非只是填色或补全,而是真正理解了用户的意图,并在此基础上进行合理、完整的空间构建,生成结果真实,细节丰富,整体观感接近专业设计渲染效果。



提示词:把这个线稿改成真实的场景

Seedream 4.0 还能理解抽象符号与图像元素之间的关系。比如在一张瘦弱小猫的图片旁画上外扩箭头,它就能推理出我们的意图是让小猫变胖,最终生成画面中小猫体型明显更加圆润。

相比于只能依赖文字描述的模型,这种图文结合的意图解析使创作过程更加直观高效。



提示词:根据箭头方向改变小猫体型。

此外,上传一张人物摄影照片,它还能严格遵循文本要求进行逆向工程,描绘其创作过程。



提示词:展示布景搭建的场景,模特坐着滑手机,身后有一位女性正在帮她整理头发,背景里有一名男子站在梯子上挂幕布,幕布后露出摄影棚的环境。

高度特征保持

以往,图像编辑模型在细节还原和物体特性表现上,常常出现失真或不自然的现象,而此次 Seedream 4.0 提供了更高的稳定性与精准度。

比如将参考图转化为手办测试中,Seedream 4.0 不仅遵循了提示词的多重约束,还能让角色形象与参考图保持高度一致,盒子、电脑屏幕、底座等元素布局合理,模型生成的 PVC 透明度与光泽感也更接近实物效果。



提示词:把参考图片转化为一个角色手办,在手办背后放置一个印有该角色形象的盒子,并在旁边的电脑屏幕上显示 Blender 建模过程,盒子前方放一个圆形塑料底座,角色手办立在上面,让 PVC 材质看起来清晰透亮,场景尽量设置在室内。

Seedream 4.0 这一功能在商业化场景中大有作为。

我们上传了两只小狗飞奔的图片和一张白色帆布包的产品照,并输入提示词「图 2 帆布包上印着图 1 形象」。

模型在处理跨图像的组合任务时,能精准捕捉主体特征、图像比例,并将其协调融入目标物体之中,避免了贴图感。



提示词:图 2 帆布包上印着图 1 形象

我们还可以制作表情包,Seedream 4.0 忠实还原了仕女的服饰与造型特色,并充分发挥想象力,生成扮鬼脸、打哈欠、比耶、愤怒等多款生动表情,角色形象和画风均没有走样。



提示词:参考图片形象生成一组搞怪表情包

精准指令编辑

对于增删改替常规玩法,Seedream 4.0 也有了较大进步。

比如让男生戴上耳机和墨镜,并手捧一束花,模型自然完成了三项元素的添加。耳机、墨镜与花束都与人物形象高度契合,整体效果真实自然。



提示词:让男生戴上头戴式耳机,戴着墨镜,手捧一束花

或者删除背景中杂乱的路人,模型不仅把这些无关元素删除得干净利落,还能自然填充背景,画面衔接流畅,完全看不出 P 图痕迹。



提示词:删除背景中的路人

即使是更为复杂的任务,如更换人物发型,Seedream 4.0 也能在保证面部特征和气质一致性的基础上,流畅转换发型,发丝细节丰富,还避免了因局部修改导致的整体失真。



提示词:将参考图中的女生发型分别改为大波浪卷、高马尾、丸子头

为了让大家能玩明白,官方还总结出了一套提示词指南。

使用清晰明确的指令通常能实现更好的编辑效果,常见公式为「变化动作 + 变化对象 + 变化特征」,比如将骑士的头盔变为金色。这里,变化动作指的是需要执行的操作,如移除、添加、替换、参考等;变化对象包括主体、背景、光影、色彩等;变化特征则是希望变化后呈现的效果。当需要将多张图片合成一张时,可以通过「一系列」、「组图」或「帮我生成几张图」等提示词触发组图功能,最多支持生成 9 张图片。如果需要保持特定角色形象、产品信息或风格一致性,可以上传图像作为参考。使用精确的风格词或直接输入图像作为风格参考,有助于获得更理想的效果。上传多张参考图时,明确指出不同图片需参考或编辑的不同元素,可以提高生成结果的精准度。例如:将图 1 中的角色放入图 2 的背景中,参考图 3 的风格进行生成。

与 Nano Banana 同台竞技

为了更直观地展现字节 Seedream 4.0 和谷歌 Nano Banana 这两款模型的差异与优势,我们将其进行了多项对比测试。

Round1:生成 OOTD



图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana. 提示词:请根据上传的参考照片,生成一张俯拍平铺的 OOTD 穿搭图,服装、配饰、鞋子需与上传的参考照片 1:1 复刻。

从结果来看,Seedream 4.0 与 Nano Banana 的整体表现都接近预期,能够较好地还原出参考造型的整体搭配与构图。

不过在材质精准性与细节控制上仍有优化空间,Seedream 4.0 生成的毛线马甲材质对不上号,Nano Banana 则是纹理不对,同时在生成的包袋上额外出现了一条肩带。

Round2: 一键换衣

我们又上传了一张模特照和一张 OOTD 俯拍平铺图,并输入提示词:Change the outfit with the uploaded one.



图 1、图 2 为原图;图 3 为 Seedream 4.0 生成效果;图 4 为 Nano Banana 生成效果。提示词:Change the outfit with the uploaded one.

这两款模型都能够严格遵循提示词要求,将参考穿搭准确替换到模特身上,整体效果自然,服装细节和轮廓基本与参考图一致。

Round3: 漫画分镜

漫画分镜的生成是对模型理解力与画面统筹能力的综合考验。

我们以一张吉卜力风格的女孩形象为参考,要求模型延展出两组治愈系场景。



图 1 为原图;图 2、图 3 为 Seedream 4.0 生成效果;图 4、图 5 为 Nano Banana 生成效果。提示词:参考这张图的画风和人物形象,生成一组治愈系漫画:1. 骑着自行车在山间小路上行驶;2. 穿着透明雨衣,雨衣表面有水珠,右手提着装满鲜红番茄的柳条篮子,行走在泥泞乡间小路,小路两侧是繁茂番茄田(红番茄挂藤,绿叶带雨),田边点缀白 / 粉 / 黄 / 蓝野花,细雨纷飞。

两者在复杂分镜生成方面都已具备成熟能力,Nano Banana 一如既往稳定,Seedream 4.0 则在画面色彩搭配上更加鲜明,整体清晰度也更高。

Round4: 修复老照片

我们又上传了一张破损严重的旧照,并要求这俩模型进行自动修复。



图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana。提示词:Restore this photograph.

它们的处理结果都达到了可用水准,能够有效去除照片中的裂痕与瑕疵,并在保持原有影像风格的前提下,恢复出较为完整的画面。

二者实力几乎不相上下,Seedream 4.0 的成片更清晰,人物面部轮廓与背景纹理表现得更加锐利; Nano Banana 的颗粒感更强,也更有老照片的味道。

Round5: 中文排版

在涉及中文文本生成与排版的任务中,Seedream 4.0 能将英文正确替换为中文,书写感真实,整体与封面设计协调一致;而 Nano Banana 在这一任务中则出现了明显问题,生成的文字难以辨认,呈现出类似「鬼画符」的效果。



图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana。提示词:Change the text on the image to "时尚芭莎" in a handwritten style.

综合这五项测试结果来看,Seedream 4.0 与 Nano Banana 在图像生成与编辑的核心能力上都展现了较高水准,能够较好地理解复杂提示词并生成符合要求的内容。

两相对比,Nano Banana 在多图融合中主体一致性更稳定,而 Seedream 4.0 则在美感、清晰度以及中文排版等方面表现更为突出,尤其在多语言环境与高精度任务中展现出明显优势。

可以预见,在多模态与生成式 AI 的赛道上,竞争将持续加速,而用户也将因此获得更丰富、更具想象力的创作体验。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新