机器之心编辑部
一句话:Pro 级质量,Flash 级价格。
预告了许久的Nano Banana 2,终于来了。
![]()
谷歌CEO皮查伊发帖声称:「这是我们迄今为止最好的图像模型。」
![]()
https://x.com/sundarpichai/status/2027057726170509724
目前该模型已经作为默认图像模型在 Gemini App、Google Search(覆盖 141 个国家)和 Flow 上线,同时在 Google AI Studio 和 Vertex AI 提供预览,也可以在 Google 的 Antigravity 中使用。
这一次升级,核心不只是画质再抬一档,而是能力结构发生了明显变化。
Nano Banana 2融合了 Gemini 对世界的深度理解,同时利用实时网页搜索获取的信息和图片,因此能够以极高的保真度来反映真实世界的当前状况。
皮查伊举了个「Window Seat」(窗边座位)的例子。随便挑世界上任何一个地方的「窗户视角」,模型就能实时生成那个窗户往外看的景色,还会自动拉取当地实时天气,同时支持 2K/4K 高清。
网友使用搜索功能,模型先通过网页搜索理解鹪鹩到底长什么样,再生成精美的桌面。
![]()
提示词:使用图片搜索查找鹪鹩的精准图像。制作一张精美的壁纸(比例3:2),采用自然的上下渐变效果,并保持极简构图。来自X@fofrAI
文本能力,仍然是这一代重点补强的方向。
Nano Banana 2 被明确定位为可以在图像中生成清晰、可读、可直接商用的文字内容,无论是营销物料还是贺卡设计,拿来即用。
![]()
来自X@ZHO_ZHO_ZHO
从社区反馈看,文字、排版稳定性,相比前代确实有明显提升。
![]()
来自X@oran_ge(左图),X@ZeroZ_JQ(右图)
![]()
来自X@karminski3
![]()
拉纳克普尔耆那教寺庙的柱子,x@tulseedoshi
模型也在更高复杂度场景下展示出一定统筹能力。
沃顿商学院教授@emollick提前体验了 Nano Banana 2。「它虽然还不完美,但却是第一个能以较高的一致性处理极其复杂的图像和图表的模型。」
他给出的指令是:
「show me a where's waldo set in ancient Venice, but instead of waldo it is an otter wearing a blue striped pilots outfit.」(给我展示一张以古代威尼斯为背景的《威利在哪里》(Where's Waldo)风格的图片;但要把威利换成一只穿着蓝色条纹飞行员制服的水獭。)
![]()
X@emollick
如此复杂多元的画面生成,我仔细瞅了半天,还真找到了,而且,只有一个水獭!当然也有毛病,比如长尾巴的小男孩:
![]()
速度,是这代最直观的体感升级之一。
![]()
用户反馈,生成 4K 图像不到一分钟。
![]()
关键还便宜!结合官方给出的价格,比 Pro 全面便宜:图片便宜 25-50%,文本 token 便宜 70-80%。
一句话:Pro 级质量,Flash 级价格。
![]()
从社区实测来看,Nano Banana 2 的主体一致性表现,也是这一代的亮点之一。
我们简单体验了一下,确实做得不错。
![]()
提示词:保持所有角色和物体与之前(左图)完全一致。重新布置场景,让五个角色围坐在一张圆桌旁,自然互动。九个物件必须全部保留,并且清晰可见。电影级光影,中景,照片级真实感。(右图是结果)
谷歌表示,在单一工作流中可保持多达 5 个角色的一致性,以及多达 14 个对象的保真度。这让你可以进行分镜创作和叙事构建,而无需改变输入对象的原型外观。
换句话说,当角色一致性不再频繁崩坏,分镜、故事板、连续广告乃至 IP 视觉资产的自动生成才真正具备可行性。
指令遵循能力同样明显收紧。Nano Banana2 能很好理解如此复杂、包含多重指令的草图输入。难怪博主直呼「设计师们,我觉得我们完蛋了!」
![]()
@hewarsaber丢给它一张草图,输入提示词:Turn this sketch into a landing page for an Al video platform.Purple and white.Clean and modern.Hero headline: 'AI Video That Speaks Your script'.Show an Al avatar on the right. Add use case tags below the nav(将此草图转化为AI视频平台的落地页。紫色和白色,简洁现代,醒目的标题:「人工智能视频,朗读你的脚本」,在右侧显示人工智能头像,在导航栏下方添加用例标签。)
微妙的镜头语言控制,执行稳定性也有提升。
![]()
提供了3张参考图片和一个简单的提示:这里展示的是35mm、50mm和85mm焦距,光圈分别为f/1.2和f/2.0的情况。x@LinusEkenstam
![]()
网友评价,第一个轻松理解如何使用广角镜头拍摄特写的图像模型,x@aifilmmaker
产品规格上,全面控制各种长宽比(包括1:8、 8:1 这种极端画幅),专为横幅、故事流和全景内容设计。
分辨率覆盖 512px 到 4K。加入低分辨率(512px)快速模式,更适合高频迭代与大规模流水线。
![]()
虽不及 8:1 极端,很多网友在晒的这种全景图,已经很惊艳。
![]()
还有网友让它生成一个 720 度的 vr 素材图,加入交互,就得到了一个全景网站。

X@ZeroZ_JQ
值得一提的是,在保持速度的同时,视觉保真度也有所升级。画面充满活力的光影、更丰富的纹理和更清晰的细节。
看看这张图!睫毛根根分明,眼周皮肤、眼睛里的红血丝都清晰真实,甚至能从眼睛里看到窗外的那只鸟。
![]()
https://x.com/chetaslua/status/2026961626549887069?s=20
![]()
皮肤细节清晰可见,毛孔,脸颊、鼻头因冷空气,自然泛红。X@charliejhills
网友还玩出了不少花样。
博主@fofrAI引用了别人在图书馆随手拍的一本童书《How to Hold Animals》,然后给模型下提示「Show the jellyfish page from this book」。
模型立刻生成了书里第 42 页关于水母的内容,风格、排版、插画质感,看起来就像直接从书里扫描出来的一样。
![]()
https://x.com/fofrAI/status/2027076683010851284
模仿你的笔迹,写一首诗。
![]()
X@Prathkum
居然还能生成 CAD。
当然,翻车的例子也不少。比如,这个倒立就有问题;郭德纲于谦互换脸,也失败了。
![]()
x@karminski3(左)X@ZHO_ZHO_ZHO(右边)
生成准确的时钟,似乎一直是个难题。
![]()
X@ZHO_ZHO_ZHO
据说,Google Ads 也已开始接入这一能力——这几乎等同于公开宣告:图像生成正在正式进入广告生产基础设施。
从更宏观的产品策略来看,谷歌的意图已经越来越清晰:不是单纯把图像模型做得更好看,而是把它们全面推入高频生产基础设施。
当 Pro 级能力开始系统性下沉到 Flash 档位,图像生成的使用频率,很可能会迎来下一次台阶式跃升。
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/





京公网安备 11011402013531号