当前位置: 首页 » 资讯 » 新科技 » 正文

新鲜出炉!谷歌nano banana模型刷屏背后技术揭秘

IP属地 中国·北京 编辑:江紫萱 AI寒武纪 时间:2025-08-28 22:27:22


这两天谷歌的Gemini 2.5 Flash image也就是 Nano Banana模型已经刷屏了,Nano Banana项目负责人和研究员(包括 Nicole Brichtova, Kaushik Shivakumar, Mostafa Dehghani 和 Robert Riachi)刚刚接受DeepMind产品负责 Logan Kilpatrick播客采访,揭秘了背后的技术


Gemini 2.5 Flash image 的一个关键特性:场景一致性。在连续的编辑过程中,模型能够保持核心元素的连贯性,同时根据新的指令对场景进行创造性的调整。这标志着LLM首次能够如此出色地在多次编辑中维持场景的一致性,让用户可以通过多轮对话的方式与模型进行有趣的互动和创作

一个备受关注的功能:文本渲染。这是许多用户在创作社交媒体帖子、海报或公告时的刚需。 Gemini 2.5 Flash image 在图像编辑、风格转换和文本渲染方面具有强大能力,更重要的是,它揭示了模型作为一种新型创意工具的潜力——一个能够理解模糊意图、保持对话记忆、并与用户共同完成创作的智能伙伴

以文本渲染能力作为衡量模型质量的代理指标

在讨论图像生成模型时,一个无法回避的难题是如何进行有效评估(evaluation)。传统的评估方法严重依赖于“人类偏好评估”(human preference evals),即通过大量的人工评分来判断生成图像的质量。然而,这种方法存在明显的弊端。正如团队成员 Robert Riachi 指出的,图像的审美非常主观,依赖大量评分员获取信号不仅耗时,而且反馈周期长,难以支持模型训练过程中的快速迭代

为了解决这一挑战,Gemini 团队探索并最终确立了一个新颖且高效的代理指标:文本渲染能力。团队的研究员 Kaushik Shivakumar 是这一理念的早期倡导者。最初,团队里有些人可能觉得他对文本渲染的执着有些疯狂,但随着研究的深入,大家逐渐认识到其背后深刻的逻辑。Robert 解释道,当一个模型学会如何正确地生成文本的结构时,它实际上也在学习如何在图像中生成其他类型的结构。一张图像包含不同频率的信息,既有可以被视为结构的部分,也有如纹理(texture)等其他部分。文本渲染能力的好坏,直接反映了模型在生成场景结构方面的精准度。换言之,一个连字母的排列、笔画的结构都能精确生成的模型,在处理其他物体的轮廓、空间关系等结构性问题时,也更有可能表现出色

Kaushik 进一步阐述了这一思路的由来。他认为,要改进一个模型,首先需要找到一个清晰的信号来指示模型的不足之处。在几年前,几乎没有模型能很好地处理文本渲染,即使是像“Gemini Nano”这样简短的词组。因此,团队决定将文本渲染的准确率作为一个长期追踪的关键指标。在每一次实验中,无论尝试何种架构或数据调整,他们都会监控该指标,确保其不会下降。有趣的是,这种做法带来了一个意想不到的好处:一些原本并非针对文本渲染的改动,却意外地提升了该指标的表现。通过持续关注这个信号,团队不仅避免了在模型迭代中出现能力退步,还发现了一些能够促进模型整体质量提升的有效方法。

这个代理指标的价值在于,它为模型训练提供了一个客观、可量化且不易饱和的衡量标准。相比于很快就会触及瓶颈的其他自动化图像质量指标,文本渲染的难度足够大,能够持续为模型的改进提供指引。当然,这并不意味着团队完全放弃了人类评估。Kaushik 也承认,随着时间的推移,他逐渐认识到,当有足够多的评分员,在足够多样化的提示词上进行评估时,人类反馈确实能提供宝贵的信号。但其高昂的成本决定了它无法成为训练过程中的实时指导。因此,在模型训练期间实时监控文本渲染这类代理指标,就成了一种高效、经济且可靠的替代方案,让团队能够准确判断模型的训练进展是否符合预期,从而实现更快速、更精准的优化

原生多模态与交错式生成:实现复杂编辑与情境感知

Gemini 2.5 Flash image 的核心优势在于其原生多模态(架构。这意味着图像的理解与生成能力被深度整合在同一个模型中,而非两个独立系统的拼接。Mostafa Dehghani 解释说,这种设计的终极目标是在不同模态和能力之间实现“正向迁移”(positive transfer)。例如,模型从图像和视频中学到的关于物理世界的知识(比如沙发通常是什么样子),可以弥补纯文本数据中的“报告偏见”(reporting biases)——人们在对话中通常不会提及普通、常见的事物。视觉信号为模型学习世界知识提供了一条捷径

图像理解与图像生成就像一对姐妹,它们的协同作用在“交错式生成”(interleaved generation)中得到了最充分的体现。交错式生成是 Gemini 2.5 Flash image 实现复杂、多轮编辑的关键技术。与传统模型一次性生成一张图片不同,交错式生成是一个连续的过程。在多轮对话中,模型不仅能理解当前的文本指令,还能看到并理解对话历史中的所有图片。这意味着,当模型生成第二张、第三张图片时,它已经将之前生成的内容纳入了其上下文之中。这使得模型能够进行有记忆、有逻辑的连续创作。

Mostafa 进一步指出,交错式生成为解决极其复杂的图像生成任务提供了一种全新的范式。如果一个用户的提示词包含了五十个不同的编辑要求,传统模型很可能在一次生成中无法满足所有细节。但利用交错式生成,模型可以将这个复杂任务分解为多个步骤,在不同的对话轮次中逐一完成编辑。这类似于语言模型中的思维链(chain-of-thought),只不过这里的思考过程是在像素空间中,通过一系列增量式的修改来完成的。这种增量式生成(incremental generation)的能力,打破了单次生成的容量限制,理论上可以处理任意复杂的创作需求

从用户反馈到技术迭代:像素级控制与角色一致性的飞跃

Gemini 2.5 Flash image 的显著进步,离不开对上一代模型(如 Imagen 2.0)的深入反思和对用户反馈的积极响应。团队成员 Robert Riachi 透露,他们会直接在 X等社交平台上搜集用户反馈,将用户报告的失败案例系统性地整理起来,并将其构建成内部的评估基准(benchmark)。这意味着,每一个新版本的模型都必须在这些来自真实世界挑战的测试集上证明自己的进步

通过这一流程,团队精准地定位并解决了前代模型的几个核心痛点,实现了质的飞跃:

像素级完美编辑(Pixel-perfect editing):在 Imagen 2.0 中,一个常见的失败案例是,当用户尝试对图像进行局部编辑时,模型虽然添加了新元素,但可能会不必要地改变图像的其他部分。Gemini 2.5 Flash image 在这方面取得了巨大进步,能够更好地保持场景的其余部分不变,实现像素级的精准控制。这对于角色设计(比如只想改变角色的头部姿势而保持服装不变)或室内设计等实际应用至关重要

角色一致性(Character consistency):Kaushik Shivakumar 指出,Imagen 2.0 已经可以在保持角色位置不变的情况下,为其添加帽子或改变表情,这相对容易。然而,2.5 版本的模型实现了更高层次的一致性。现在,用户可以要求模型从不同角度渲染同一个角色,模型能够生成看起来完全是同一个人的侧面或背面视图。同样,它可以将一件家具从原始照片中取出,放置到一个全新的环境中,进行旋转和重新定位,同时仍然忠实于其原始的外观和细节。这不再是简单的像素粘贴,而是对物体三维形态和材质的深度理解与重构

更自然的图像质感:此前,一些编辑操作有时会产生一种不自然的PS感或叠加感,仿佛新添加的元素是后期贴上去的。这个问题的解决,得益于 Gemini 团队与 Imagen 团队的紧密合作。Gemini 团队的优势在于指令遵循和世界知识,而 Imagen 团队则在图像美学和视觉质量上有着深厚的积累。当两个团队的视角融合时,模型的评价标准从是否完成了编辑提升到了编辑得是否自然、美观。Nicole Brichtova 提到,团队中有一些来自 Imagen 的成员拥有经过磨练的审美品味,他们会审查成千上万张图片,以其专业的眼光判断模型的优劣。这种跨团队协作,使得 2.5 版本模型生成的图像和编辑结果在视觉上更加和谐、逼真

这个从用户反馈出发,结合跨团队专业知识,最终实现技术突破的开发过程,是 Gemini 2.5 Flash image成功的关键。它不仅修复了旧模型的短板,更在核心能力上建立了新的行业标杆

图像模型制作ppt目前只是触及皮毛,除了智能,真实性与事实性是另一个重要的发展方向

模型有一天要能制作工作中真正用于演示所需的ppt,在这个场景中,图像的美观固然重要,但内容的准确性是不可或缺的。无论是生成图表、信息图(infographic)还是技术示意图,模型都必须确保信息的准确无误,不能出现无关的文字或错误的数据表示。这要求模型不仅具备视觉生成能力,还需要具备事实核查和逻辑推理的能力,目前在这一领域才刚刚触及皮毛

参考:

https://www.youtube.com/watch?v=H6ZXujE1qBA

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。