刚刚,谷歌正式发布nano-banana 图像模型,官方名称:Gemini 2.5 Flash Image ,这个模型之前已经在LMArena 可以随机到,我也测过,具有超强的一致性,可以说指哪打哪,创造力非常强,这个模型在图像编辑、角色一致性维持和多图像融合方面展现了惊人的能力,提供了前所未有的创作自由度
模型现在可在 GeminiApp 和 googleaistudio 免费试用,并在 Gemini API 中以每张图像 0.039 美元的价格提供(与 2.0 Flash 图像生成相同)!
从性能上看,Gemini 2.5 Flash Image 在多个基准测试中表现卓越。根据 lmare.ai 的排行榜数据显示,无论是在综合偏好度,还是在角色、创意、信息图表、物体/环境和风格化等多个细分领域,其表现均显著优于包括 GPT 4o Image 、FLUX.1 Kontext 等在内的业界主流模型,“纳米香蕉”一共上场打了 500多万场对战,在这些顶尖图像生成模型的对战中,凭一己之力斩获超250万票,直接刷新历史纪录,以171分优势,创下了 Arena 历史上最大的 Elo 分数领先纪录
为了让用户能快速上手,谷歌对 Google AI Studio 进行了重大更新,推出了多个模板应用,可以免费试用、修改和部署,可以愉快的探索nano-banana各种好玩的功能
地址:
https://aistudio.google.com/apps?source=showcase
Gemini 2.5 Flash Image 核心亮点:
1. 保持角色一致性
图像生成的一个基本挑战是在多个提示和编辑中保持角色或对象的外观。现在,nano-banana 可以将同一个角色放置在不同的环境中,在新环境中从多个角度展示单个产品,或生成一致的品牌资产,同时保留主题
谷歌在 Google AI Studio 中构建了一个模板应用 (可以轻松自定义并在其上设置代码),演示模型的字符一致性功能
除了角色一致性之外,nano-banana还擅长遵守视觉模板
2. 基于自然语言的精准编辑
nano-banana支持使用自然语言进行有针对性的转换和精确的本地编辑。例如,模型可以模糊图像的背景、去除 T 恤上的污渍、从照片中删除整个人物、改变拍摄对象的姿势、为黑白照片添加颜色,或者可以通过简单的提示想到任何其他内容
3. 多图像融合
nano-banana可以理解和合并多个输入图像。例如将对象放入场景中,使用配色方案或纹理重新设置房间样式,并通过单个提示融合图像,为了展示多图片融合,谷歌在 Google AI Studio 中构建了一个模板应用 ,可将商品拖到新场景中,以快速创建新的逼真的融合图片
one more thing
现在的图像生成模型在美学图像方面表现出色,但缺乏对现实世界的深刻语义理解,nano-banana在对现实世界的理解上取得了突破
为了证明这一点,谷歌在 Google AI Studio 中构建了一个模板应用 ,将一个简单的画布变成了一个互动式教育导师。它展示了模型阅读和理解手绘图表、帮助解决现实世界问题以及在一个步骤中遵循复杂编辑说明的能力。
参考:
https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/