据悉,谷歌DeepMind发布新一代AI图像生成与编辑模型Gemini 2.5 Flash Image(代号“Nano Banana”),并已提供预览,数周后将推出稳定版。该模型在测试中获得“全球评分最高编辑模型”,在角色一致性、精准编辑等方面表现优异。Gemini 2.5 Flash Image定价为每百万输出token 30美元,每张图像消耗约1290 token(约合0.039美元),低于OpenAI同类模型的每百万token 40美元定价。
该模型在图像质量、编辑控制和应用场景上有大幅改进,支持多图合成、多轮次修改与风格迁移等复杂操作。谷歌DeepMind还开发了可定制的模板应用,方便用户体验模型在角色一致性、基于提示的精准图像编辑、融入现实世界知识和多图像融合等方面的能力。
AI图像模型已成为科技巨头的核心竞争领域。OpenAI、meta和Black Forest Labs等均有相关动作。谷歌希望通过Gemini 2.5 Flash Image缩小与OpenAI的用户差距。目前,ChatGPT的周活跃用户已超7亿人,而Gemini的月活跃用户为4.5亿。
谷歌为Gemini 2.5 Flash Image设置了安全防护机制,禁止生成“未经同意的私密图像”,并为AI生成的图像添加视觉水印及元数据标识,以应对深度伪造图像问题。