之前火爆全网的 nano banana,现在要推出 2.0 版本了。
全新的 nano banana 2 能有多强,看下面这张 11:15 的时钟和满杯的红酒。
![]()
▲x@synthwavedd
为什么说这张照片厉害,在 AI 生图领域,有一个极具挑战性的测试,目前还没有 AI 能稳定做到,那就是时钟和满杯红酒测试。
输入提示词「时钟上显示 11:15,红酒杯已满至杯口(11:15 on the clock and a wine glass filled to the top)」,就能检测你的 AI 生图是否够聪明。
![]()
我们在大模型竞技场、豆包 Seedream、以及 nano banana 1.0 版本多次尝试,没有 AI 可以准确显示时钟刻度,和一杯快满出来的红酒。
而 nano banana 2 做到了。对比当前版本的 nano banana,它的文本渲染能力更进一步,直接写字,不同风格和不同语言都可以驾驭;世界知识也进一步强化,能准确生成各种信息图表;指令遵循方面表现也更加出色。
![]()
▲ 更真实的黑板字|图片来源 x@testingcatalog
和 Nano Banana 最早在大模型竞技场,以抽卡的形式出现不同。Nano Banana 2 模型是在 media.io 上被爆料,用户可以在这个网站上体验 nano banana 2。
![]()
▲ Media AI(medio.io)目前只有 nano banana 和 Seedream 等其他 AI 生图模型
不过,这个被称为 nano banana 2 的模型很快就下架了。在 Reddit 上,有用户提到 Media AI 只是短暂性地开放了一个多小时的使用权限。
但是就这短暂的时间里,网友们发现生图效果确实可以说是 NB 2.0,很快就在社交媒体上传开。大家都在分享 nano banana 2 预览模型的输出结果,发现和 nano banana 1.0 版本有着明显的区别。
下面这两张来自 1.0 和 2.0 版本的图片,你能分清楚那张是来自 nano banana 2 吗。
![]()
▲ 图片来源 x@Azinha810
都是汽车模特在海边公路拍摄大片,但是很明显第一张图片色彩和风格更准确,没有专属于 AI 照片的「塑料感」。
![]()
▲ 图片来源 x@Azinha810
还有这两张偏科幻风格的图片,区别就更加明显了。第二张图看起来电影感更强,视觉质量也比第一张图有了更多准确的细节。举个例子,第一张图的设备仪表板和第二张图,能看出直接的不同,nano banana 生成的仪表板,依旧是明显的 AI 风格。
根据 X 上爆料博主 testingcatalog 透露的信息,nano banana 2 目前仍然是由 Gemini 2.5 Flash 作为基础模型,而没有完全开始使用 Gemini 3.0 Pro。
这意味着 nano banana 2 图像模型的发布时间,可能要比 Gemini 3 来的更早。我们收集了目前关于 nano banana 2 的爆料,其中提到它有以下这几个亮点。
1、能处理更复杂的任务,例如在精确的着色、高级控制视角或角度,以及纠正生成图像中的文本元素等,当前 1.0 版本不支持的任务。
![]()
▲ 输入提示词,让水变粉红,依次是原始图像,Nano Banana 1,Nano Banana 2|图片来源 x@Angaisb_
2、全新的多步骤生成工作流程,nano banana 不再是「一键出图」,而是更像一个设计师在工作。
规划: 花费相当长的时间规划输出内容。生成: 生成一个初步图像。审查: 通过内置的图像分析功能进行自我审查。修正: 识别并纠正任何错误。迭代: 根据需要进行迭代,最后才交付结果。
3、更高的分辨率和更全面的宽高比图像生成,其中更广泛的宽高比,包括 1:1, 2:3, 3:2, 3:4, 4:3, 9:16, 16:9 和 21:9 等大小,而分辨率在爆料信息中,则是称有 1K、2K 和 4K 多种模式。
![]()
▲ComfyUI 工作流界面
其中,多步工作流,大概是 nano banana 更新里面最大的差异化卖点。之前我们可能听过 ComfyUI 这类工具,能够实现生图、生视频的工作流。但现在直接通过 nano banana 就能实现,这对于高精度图像的生成来说,是一次巨大的进步。
实际表现还是得看生成的图片来说,我们继续看看这些来自 nano banana 2 的测试案例。
更强的文本渲染
首先是真实的电脑截图,nano banana 2 能直接生成一个 Windows 电脑截图,屏幕显示浏览器,正在访问 YouTube 网站,并且指定视频的封面是野兽先生。
![]()
▲ 直接上传一张 Windows 电脑截图。提示词:Generate a screenshot of a windows 11 desktop, with google chrome open, showing a YouTube thumbnail of Mr. Beast on http://YouTube.com(生成一张 Windows 11 桌面截图,谷歌 Chrome 已打开,显示 YouTube 上 Mr. Beast 的缩略图,链接为 http://YouTube.com)|x@synthwavedd
更复杂一点的玩法,甚至能直接让 nano banana 2 生成一个 Google DeepMind 的网页截图,这密密麻麻的文字没出现乱码,真的厉害。
![]()
▲x@synthwavedd
不过还是有细心的网友发现,nano banana 2 的效果也不是十全十美,像这张图片里出现了 Gemini 31、Google DeepMind – Nevdscl 等错别字。
不仔细去看,光看大标题和那些小标题,还真的很难发现这里面的错误。但是,当要处理的文本内容少一点的时候,nano banana 2 出现错误的概率就会小很多。
这张电视台新闻直播现场的图片,屏幕上的文字都是准确的,格式统一;甚至它把地板上反射的文字,都正确显示了。
![]()
▲x@synthwavedd
同样的,还有这张电视的直播截图,主播在屏幕右侧,底部有新闻节目经典的跑马,并且所有文字都准确渲染。
![]()
▲ 提示词:50mm big budget live broadcast 8k photograph close-up an attractive italian age 30 wry female news anchor. She is at a news desk and on a screen behind her is a bio engineered Banana with text “Nano Banana 2 live on Media .IO?” Live news shot. There is a red and blueckhyron on the bottom of the image that says “Breaking News: Nano Banana 2 on Media .IO?”|图片来源 x@BrentLynch
我们也把同样的提示词,让当前的 nano banana 处理了一遍。
![]()
这张照片给我的感觉 AI 味也不算太重,但是它对背景屏幕做了虚化处理,反而让照片看起来不像是新闻节目的现场,而文字的反射也稍显刻意,它重点突出了主播的形象。
有了世界知识,更听得懂我们的指令
像开头那张 11:15 分的时钟和满杯的红酒,在评论区里,网友们纷纷贴出自己用 Grok、ChatGPT 等其他模型的生图,结果都不如 nano banana 2 准确。
还有网友分享了让 nano banana 2 把一个汉堡玻璃化,其中只有它做到了将整个汉堡都变成玻璃;而字节的 Seedream 和 Riverflow 都只是将汉堡的面包部分转成了玻璃。
![]()
▲ 提示词:制作玻璃汉堡(Make the hamburger made of glass);图一为 nano banana 2 生成的图片|图片来源 x@Angaisb_
在世界知识方向上的进步,让 nano banana 2 更能读懂提示词,做到严格指令遵循的同时,它还可以让我们的提示词更简单。
例如有网友测试了生成一个 GTA 6 预告片,nano banana 2 直接给了他一个完整的 YouTube 页面,它甚至还知道真正的 GTA 6 标志。
![]()
▲ 图片来源 x@jewgibor
他还测试了一组提示词「one piece live action netflix」,海贼王真人版奈飞,结果 nano banana 不仅知道 Netflix 的 Logo,也知道相关的真人版演员。
![]()
结合世界知识和文本渲染,nano banana 2 还能在黑板上为我们解题,这不比看着聊天框里面长长的数学推理舒服多了。
![]()
▲图片来源 x@MagusWazir
而 nano banana 1.0 版本和 nano banana 2 的对比是这样的。
![]()
▲ https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output/
还有许多类似的案例,用 nano banana 2 来接数学题,然后在黑板上回答。
![]()
▲ 图片来源 x@Liam06972452
不只编辑,生图能力这次也有了提升
同样是在 Media AI 平台上,短暂出现的预览版本的测试效果。
![]()
▲提示词:Ken Kaneki carrying his friend in his arms in the snow, Tokyo Ghoul|图片来源 x@legit_api
东京食尸鬼里面金木研在雪中抱着朋友的场景,就这么自然地生成了。除了稳定拿捏的动漫风格,赛博朋克风格,nano banana 2 的生图效果也很高级。
![]()
▲ 提示词:Cyberpunk hacker robot working in front of many monitors|图片来源 x@testingcatalog
还有各种各样的人像「恶搞」图片。
![]()
▲ 图片来源 x@MicahBerkley
以及这种胶片风格满满的合影。
![]()
▲ 图片来源 x@rpnickson
不过有人在评论区提到,「这根本不是 nano banana,Media AI 是一家中国公司。像 DeepSeek 当时出来的时候一样,我们也以为它是来自 OpenAI,这是他们的惯用手法。」
当时 nano banana 1 在大模型竞技场第一次出现时,大家也无法确定这个模型是否真的来自 Google,但最后只要生图效果够炸裂,我们就会买单。
拿目前这个生图效果来看,把它叫 nano banana 2 是完全没有问题。





京公网安备 11011402013531号