当前位置: 首页 » 资讯 » 新科技 » 正文

Gemini团队解密Nano-Banana图像模型重大进化:当“像素完美”遇上“深度智能"" ...

IP属地 中国·北京 编辑:赵云飞 Web3天空之城 时间:2025-09-01 12:16:29

Web3天空之城|城主:

关心AI进展的人这两天一定不会错过谷歌""纳米香蕉(Nano-Banana)模型的刷屏.

谷歌最新推出的这个图像生成编辑模型再一次刷新了人们对AI图像能力的认知. 毫不夸张的说, 这个模型直接终结了adobe photoshop修图和所有在ai模型上做图像微调的应用--完全不需要了, 只要对着这个模型说一句话, 它就能满足你对图像修改的几乎所有需求: 修图, 改角度, 换装, 换风格,等等, 效果无可挑剔的好. 而且, 相信更多的强大能力相信这几天还会继续被挖掘出来.

以下是gemini团队亲自坐下来对Gemini原生图像生成模型"nano-banana"的重大进化的探讨。负责其原生图像生成模型(内部代号“Nano-Banana”)的核心团队——Nicole、Kaushik、Mostafa和Robert——揭示了一次堪称“巨大”的质量飞跃。这不仅是一次常规的技术迭代,更预示着AI创作工具的范式转移:从单纯的指令执行者,进化为能够进行迭代式对话、理解深层意图、并处理前所未有复杂任务的“智能创意伙伴”。这场对话展示了令人惊叹的即时生成与编辑能力,更深入探讨了驱动模型进化的独特评估体系,以及通往“事实性”与“超预期智能”的未来蓝图。。

在深入探讨技术细节之前,以下是本次对话最核心的观点摘要:

“这是一个巨大的质量飞跃。该模型是最先进的,我们对生成和编辑能力都感到非常兴奋。”
“未来的发展方向是让模型不仅能生成高质量图像,更能理解深层意图……甚至超越用户指令,提供更有创造性的结果,并确保内容的真实性和准确性。”
“这种迭代式的创作过程是它背后的魔力。它仍然如此快速,以至于你可以快速地重新运行并迭代。”
“当用户与此互动时,他们不仅对图像的质量印象深刻,而且他们会觉得,哇,这太聪明了。”
“我们称之为‘像素级完美’编辑。这非常重要,因为有时你只想编辑图像中的那一件东西,但实际上希望其他一切都保持不变。”
“交错生成的神奇之处在于,它为你提供了一种用于图像生成的新范例……将复杂的提示分解成多个步骤,并在不同的步骤中逐一进行编辑。”
“模型可以访问多模态语境,然后生成图像。所以模型可以选择查看之前的图像,并尝试生成与之非常不同的东西。”
原生多模态的魔力:一次对话式的创作革命

本次更新的核心,在于其“原生多模态”架构。与传统模型一次性生成、编辑后便失去上下文的模式不同,新版Gemini模型能够在连续的多轮对话中,始终“记住”之前的图像和指令。这彻底改变了人机协作的本质。

产品经理Nicole在现场演示中,轻松地将一张主持人的照片,通过自然语言指令“缩小并展示他穿着巨型香蕉服装的样子”,瞬间生成了一张背景、人物面部都保持高度一致的创意图片。紧接着,一句看似无厘头的指令——“让它变成纳米级”,模型不仅没有报错,反而极富创造力地将其解读为生成一个可爱的“迷你版”香蕉人形象。

“这非常令人兴奋,因为我认为这是我们第一次看到大型语言模型真正能够保持场景在多个编辑中的一致性,并让用户使用非常自然的语言与模型交互,” Nicole解释道。这种能力源于模型可以同时理解和处理文本与图像的上下文。正如研究员Kaushik所补充的:“这就是我们所说的原生图像生成模型。它们可以访问多模-态语境,然后生成图像。”

这种架构的直接成果,就是团队所强调的“像素级完美编辑” 。无论是为一个角色换上五套不同风格的80年代服装,还是重新设计自己的花园,模型都能在进行局部修改的同时,惊人地保持场景中其他元素(如角色的脸、房间的布局)的稳定。“如果你在做角色构建,你只想转动角色的头部。但他们穿的所有东西在所有场景中都应该是一样的。这个模型在这方面做得非常好,” Nicole表示。

更重要的是,这一切都以极高的速度发生。一次包含五张高清图像的复杂生成,仅需13秒。“即使有时候它有点失败,你只需调整提示并重新运行,” 另一位团队成员Robert强调,“所以我认为这种迭代式的创作过程是它背后的魔力。”

交错生成:解锁前所未有的复杂工作流

如果说迭代能力是基础,那么“交错生成”(Interleaved Generation)则是将模型能力推向新高度的催化剂。这是一种全新的范式,允许模型将一个极其复杂的指令分解为多个可执行的步骤,然后按顺序、有记忆地完成。

“就像如果你有一个非常复杂的提示,比如进行50种不同的编辑,” 团队成员Mostafa阐述道,“现在模型有了一个非常好的机制,可以从上下文中获取信息,并在下一个回合中使用它。你可以要求模型分解复杂的提示……并在不同的步骤中逐一进行编辑。”

这意味着用户不再需要绞尽脑汁地设计一个完美的“终极提示”,而是可以像与真人设计师沟通一样,逐步累积、分层构建一个复杂的场景。这类似于语言模型中的思维链(Chain of Thought),但被巧妙地应用到了像素空间。“你花费了更多的浮点运算,并让模型基本上将这种思考方式带入到像素空间中,” Mostafa补充道。这种增量式的生成方式,理论上可以处理任何复杂度的任务,彻底打破了传统单次生成模型的瓶颈。

超越主观:文本渲染如何成为进化的标尺

如何客观地衡量一个图像模型的“进步”?在一个人人都能对美学发表看法的领域,单纯依赖人类偏好进行评估既昂贵又缓慢。为此,Gemini团队找到了一个出人意料却极其有效的代理指标:文本渲染能力。

“我认为文本渲染一直是一个非常有趣的故事,” Robert回忆道。最初,团队里只有Kaushik对这个指标近乎“着迷”,但大家逐渐发现其深刻价值。“你可以把它想象成当模型学习如何为文本构建这种结构时,它也能学习图像中的其他结构。” 准确地在图像中渲染文字,要求模型对空间、结构和几何关系有深刻的理解,这恰恰是提升整体图像质量的关键。

Kaushik进一步解释说,将文本渲染作为持续追踪的指标,可以确保模型在优化其他能力时不会在这方面出现倒退。“在缺乏其他图像质量指标(这些指标不会很快饱和)的情况下,这是一种衡量整体图像质量的好方法。” 事实证明,这个曾经看似“疯狂”的执念,最终成为了驱动模型在结构化和细节表现上取得突破的关键信号。

未来展望:从“好看”到“智能”与“事实性”

当被问及模型的未来方向时,团队的答案惊人地一致:超越视觉质量,追求更高维度的“智能”与“事实性”。

Mostafa对此有一个极具前瞻性的设想:“我期待看到这种情况发生……当模型要求模型做某事时,它没有遵循我的指示,但它做了某件事,在生成结束时,我说我很高兴它没有遵循我的指示。它甚至比我实际描述的还要好。” 他所追求的,是一种能够理解用户深层意图、甚至能以更优方式“纠正”或“升华”用户指令的“智能”。“你只是觉得我正在与一个比我更聪明的系统互动。”

而Nicole则从更实用的角度,提出了对“事实性”的渴望。“有时你可能需要为工作演示制作一个小图表或信息图,” 她说,“如果它看起来不错,那就太棒了,但这对于那种用例来说是不够的。它实际上必须是准确的。” 这预示着AI生成内容将从纯粹的创意领域,迈向需要严谨和准确的专业场景。“我梦想有一天这些模型实际上可以为我制作一个用于工作的幻灯片演示文稿,而且看起来不错。”

天空之城全文整理版 引言:一次图像生成的质量飞跃

主持人: 今天我们要和发布新模型的团队一起讨论原生图像生成。

Nicole: 这是一个巨大的质量飞跃。该模型是最先进的,我们对生成和编辑能力都感到非常兴奋。

Kaushik: 例如,你可以要求从不同角度渲染角色,它看起来会和原来的角色一模一样。

Mostafa: 当用户与此互动时,他们不仅对图像的质量印象深刻,而且他们会觉得,哇,这太聪明了。

Nicole: 并且可以与模型进行多次有趣的对话。

Robert: 所以我认为这种迭代式的创作过程是它背后的魔力。

Nicole: 而且我认为我们只是触及了这些模型能做什么的皮毛。

主持人: 大家好,欢迎回到发行说明。我叫洛根·基尔帕特里克。我在谷歌DeepMind团队。今天我们请到了考什克、罗伯特、妮可和穆斯塔法。他们是为我们的 Gemini 原生图像生成模型进行研究和产品开发的人员,我们今天将讨论这个模型,对此我感到非常兴奋。那么,妮可,你想先开始吗?有什么好消息?我很高兴听到发布的通知。

Nicole: 是的,我们正在 Gemini 和 Tutor 5 Flash 中发布图像生成和编辑功能的更新。这是一次巨大的质量飞跃。该模型是最先进的,我们对生成和编辑功能都感到非常兴奋。我不如直接给你们展示一下这个模型能做什么?因为我认为这是最好的一种方式来传达这一点。

主持人: 我很激动。我大概试用过一次,但我没有像你们那样玩得那么深入。所以我很高兴看到一些例子。

实时演示:从香蕉到“纳米级”创意

Nicole: 很好。我来给你拍张照片。好的。我们先从,比如说,缩小并展示他穿着巨型香蕉服装的样子开始并保持他的脸部可见,因为我们要确保,你知道,看起来像你。好的。生成需要几秒钟,但它仍然非常流畅,我想你还记得我们上次发布的版本。就像它是一个非常快的模型。

主持人: 这是我最喜欢的事情之一。我觉得这种编辑速度使得这些模型玩起来非常有趣。你能帮我把它稍微放大一点吗?你可以全屏。我想。点击这个?点击那个。

Nicole: 让我点击这个。好了,就这样。这是洛根。这仍然是你的脸。这个模型最棒的地方在于,它看起来仍然像你,对吧?就像这是你,但实际上就像你穿着一个巨大的香蕉服。现在有了一个你走在城市里的美好背景。

主持人: 那太有趣了,因为这张照片是在芝加哥拍的,而且那条街实际上看起来也差不多就是那样。

Nicole: 所以这个模型具备了世界知识。现在我们继续,假设让它变成纳米级。

主持人: 那是什么意思?“让它变成纳米级”是什么意思?

Nicole: 让我们看看。让我们看看这个模型会做什么。当我们最初在LM竞技场上发布它时,我们给了它一个代号叫“纳米香蕉”。是的。然后人们开始猜测这是我们更新的模型。而且它确实是我们更新的模型。就这样完成了。现在模型会提取你的信息,然后创建一个可爱的迷你版你,穿着一个巨大的香蕉服装。

主持人: 我喜欢这个。太棒了。

Nicole: 这里最棒的地方显然是,这是一个非常大的提示,对吧?就像你在说,这是什么意思?

主持人: 实际上我也不知道那是什么意思。

Nicole: 但随后模型足够有创造力来解释它,然后,你知道,创建这样一个场景,满足你的问题。它在上下文中仍然有意义,并且保持场景其余部分的相关性。这非常令人兴奋,因为我认为这是我们第一次看到大型语言模型真正能够保持场景在多个编辑中的一致性,并让用户使用非常自然的语言与模型交互。对。我不需要输入一个超级长的提示。就像我只是给它非常自然的语言指令,并且可以在多个回合中与模型进行有趣的对话。这太令人兴奋了。

文本渲染:衡量模型进步的关键指标

主持人: 我喜欢这样。它在文本渲染方面表现如何,这是我最关心的用例之一?你想让我在图片上添加一些东西吗?

Nicole: 你不如给我一个提示?

主持人: Gemini Nano。这是我唯一想到的Nano相关的东西。我觉得这就是我一直想做的用例,比如在广告牌上发布带有文字的推文,这就是我喜欢的用例。

Nicole: 好的,开始吧。好了。不错。所以这是一个相对简单的文本,对吧?是的,字母数量很少,都是简单的词语,效果很好。我们在发布中提到了一些文本渲染方面的不足,我们正在努力解决。团队的同事,也许 Kashi 可以谈谈这个问题,正在努力使我们的下一个模型中的文本渲染更加出色。

主持人: 我喜欢。你们还想展示其他例子吗?或者说,关于这次发布,还有其他指标故事吗?我知道其中一个挑战,我很好奇你们是怎么考虑的,比如评估故事,很多都是关于人类偏好的东西,这才是你们正在衡量的。很难有一个故事之类的。我认为可能有一些事情你可以找到真相的来源,但我很好奇大家如何看待这次发布,以及当我们训练这些模型时,总体上是如何看待的。

Robert: 我认为一般来说,像图像和视频这样的多模态的东西。很难进行爬坡,你知道,过去的方法是使用大量的人工偏好来进行爬坡。显然,图像是非常主观的。所以你就像是从一大群人那里获取信号,这需要时间,对吧?这不一定是速度最快的指标,而且需要花费大量的时间才能从中获得任何反馈。所以总的来说,我们一直在努力提出其他的指标,这样我们就可以在训练时进行爬坡。

我认为文本渲染一直是一个非常有趣的故事,因为我认为考希克已经谈论它很久了。他是最大的倡导者之一,而我们一直在敷衍他,认为这个人有点疯,他对文本渲染非常着迷。但最终它有点像是我们关注的主要内容之一,你可以把它想象成当模型学习如何为文本构建这种结构时。它也能学习图像中的其他结构。就像在图像中,你有这些不同的频率,你可以有结构,你可以考虑,但你也可以有纹理之类的东西。所以它确实为你提供了关于模型在生成场景结构方面有多好的信号。我让考希克多谈一点,因为他是主要负责人。

主持人: 是的,我也很好奇最初的信念是什么。是不是就像你在做一堆研究实验时,很明显就是这种情况,是的,我很想深入了解一下。

Kaushik: 是的,我认为它始于弄清楚这些模型不擅长什么。因此,为了改进任何模型,你需要一个信号来表明什么不起作用。然后你尝试一堆想法,无论它与模型架构数据或其他东西有关。一旦你有了清晰的信号,肯定能取得良好的进展。我认为,如果我们回顾几年前,几乎没有任何模型能胜任这项工作,甚至连提示词都只有像Gemini Nano这样的简短语句。

因此,我们花了更多时间研究这个指标,并始终对其进行跟踪。无论我们现在运行什么实验,如果我们跟踪这个指标,我们都可以确保我们不会在这方面倒退,仅仅因为将其作为一个信号,我们甚至可能会发现,我们没有预料到的改变实际上确实产生了影响,然后我们可以确保我们随着时间的推移继续改进这个指标。是的,就像罗伯特说的那样,在缺乏其他图像质量指标(这些指标不会很快饱和)的情况下,这是一种衡量整体图像质量的好方法。

我认为人类,我实际上对人类雷达这种评估图像生成的方法有点怀疑。但我认为至少我逐渐意识到的是,当你有足够的人在各种类别中查看足够多的提示词时,你实际上会得到相当多的良好信号。但很明显,这很昂贵,你不想总是让一群人来给图像评分。因此,例如,在模型训练时查看这个文本渲染指标,可以为你提供关于它是否按照你的预期执行的良好信号。

原生多模态:理解与生成的协同进化

主持人: 这太有趣了。我对原生图像生成能力和原生图像理解能力之间的相互作用感到好奇。我们和阿尼的团队做了一期节目,他们显然一直在努力推进,比如Gemini就拥有最先进的图像理解能力。当我们的模型在图像理解方面做得更好时,这是否是一个合理的心理模型?就像其中一些能力实际上也可以转移到生成,反之亦然。

Mostafa: 所以基本上,希望我们最终拥有原生图像生成,或者原生的多模态理解和生成,并在同一次训练运行中,通过相同的模型学习所有这些模态和不同的能力,这样你最终就能在这些不同的轴上产生正向迁移,对吧?而且这不仅适用于对单一模态的理解和生成。还在于,我们能否从图像、视频或音频中学到一些关于世界的知识,从而帮助我们进行文本理解或文本生成。

所以,图像理解和图像生成肯定是姐妹。所以,我们肯定仍然看到它们携手合作,比如交错生成。但最终的目标是看到,我给你举个例子。所以举例来说,对于语言,我们有这种我们称之为报告偏差的现象。它的意思是,你去你朋友家,回来后你从不在谈话中提及他们那张普通的沙发。对。但如果你给别人看那间房间的图片,沙发就在那里。对。所以,如果你想了解世界上很多东西,比如图像和视频,它们都包含那些信息,而不需要明确地请求这些信息。所以我想说的是,最终通过文本,你可以像其他模态一样,学到很多不同的东西,但这可能需要更多的标记(token)。所以,视觉信号绝对是了解世界的一个很好的捷径。

回到理解和生成的问题,正如我所说,这两者是紧密相连的,我将进入交错生成。你会看到,从理解到更好的生成,反之亦然,实际上存在巨大的帮助。所以,你知道,图像生成可以帮助,比如你在黑板上画一些东西来解决问题。所以也许,你知道,你可以更好地理解以视觉图像形式呈现给你的问题。所以也许我们实际上可以展示一些交错生成,这与理解和生成文本密切相关。

交错生成:解锁复杂的创意工作流

Nicole: 让我来做。以五种不同的方式将主体转换为1980年代的美国魅力购物中心照片。

主持人: 好的。

Nicole: 祈祷这能行。好的。这看起来很有希望。显然,这需要更长的时间,因为我们试图生成多个图像,然后我们还试图生成描述这些图像内容的文本。

Kaushik: 关于原生图像生成,你会注意到的一件事是,它是一个接一个地生成这些图像。所以模型可以选择查看之前的图像,并尝试生成与之非常不同的东西,或者尝试生成它的微小修改。它至少具有已生成内容的上下文。所以这就是我们所说的原生图像生成模型。它们可以访问多模态语境,然后生成图像。

主持人: 是的,这很有趣。我的心智模型一直是这样的,就像我猜也许这甚至没有意义。但它就像四个独立的正向传递或类似的东西。但这实际上就像在一个单一的。这都在模型的语境中。都在模型的语境中。这非常有趣。

Nicole: 更好的是,风格有点相似,对吧。模型还在做一件有趣的事情,就是让你在每一张图片中都出现两次。

主持人: 有意思。我们可以把其中一些全屏显示吗?这是街机之王洛根。如果我们滚动,这是酷炫老兄。

Nicole: 而且你看,这些图片附带的描述都不是我们想出来的。提示词就像他是20世纪80年代美国魅力购物中心的商店。购物中心老鼠。你应该考虑一下这些服装。第四个选项是悠闲的兄弟。你看,你在所有图片中都有不同的服装。它们看起来都像你。你在每张图片中都出现两次,这可能算是一个小小的失败模式。但是能够看到模型提出这五个不同的想法真的很酷。给他们不同的名字。给你不同的服装。对。并保持角色的一致性。

这不仅对角色构建有用,而且如果你有你房间的照片也很有用。你可以说,嘿,帮我用五种不同的方式装饰这个房间。对。也许你可以从非常有创意到更保守一些。这对你正在做的事情来说,是一种更渐进的方式。我们已经看到团队中的很多人都在用它来重新设计他们的花园和家。看到这一点真的很酷,这有点像我们自己制作的实际应用。

主持人: 是的。我实际上在AI工作室里为我的女朋友编写了一个带有氛围代码的应用程序,用于可视化她办公室的每种不同颜色。比如百叶窗或窗帘。她当时说,我不知道你的窗帘颜色是否符合这种氛围。所以这实际上只是一个2.0版本,我需要用2.5版本重新尝试,以检查所有不同的氛围。实际上效果非常好。它非常有用,而且不会。有时使用2.0版本,实际上这将是一件好事,需要重新测试。有时使用2.0版本,它会改变床,或者改变其他东西,而不仅仅是窗帘。所以看到这个用例很有趣。这是我最喜欢的用例之一。

迭代的力量:速度与一致性的魔力

Nicole: 你应该试一试。这个模型在保持场景其余部分的一致性方面做得相当不错。我们称这种像素完美的编辑。这非常重要。对。因为有时你只想编辑图像中的那一件东西。但你实际上希望其他一切都保持不变。同样,如果你在做角色构建,你只想转动角色的头部。但他们穿的所有东西在所有场景中都应该是一样的。这个模型在这方面做得非常好。它不会总是百分之百成功。但我们对它取得的进展感到非常兴奋。

主持人: 罗伯特,你本来想说什么。

Robert: 是的,我想说我觉得真正酷的一点是,它仍然如此快速。对。就像你知道的。整个生成过程用了多久?

Nicole: 让我们给它一个。这是13秒。

主持人: 哇。所以我认为每张图像是13秒,对吧。

Robert: 嗯。所以我认为很酷的一点是,即使在2.0版本出来的时候,我仍然用它做非常类似的事情。比如我有一个书架。我把所有东西都放在地上。我说,装饰一下。比如,这些物品应该以什么样的配置摆放在我的书架上。而且,你知道,我的女朋友可能不同意输出结果。所以有时候你想要迭代它。所以快速地重新运行并迭代。所以即使有时候它有点失败,你只需调整提示并重新运行。然后你就能得到一些非常好的结果。所以我认为这种迭代过程就像创造其背后的魔力。

主持人: 举例来说,尝试过2.0的人在使用方式上有什么不同。比如,我使用2.0的例子之一就是想要只进行单一编辑,一次只做一个。比如,如果你让它改变六件不同的事情,模型有时就无法很好地完成。任何这些。就像我们是否仍然应该使用这种模型进行那些有针对性的编辑,或者只是关于通用性或人们在使用模型时应该了解的事情。

Mostafa: 这基本上是我想要提及的内容。因此,交错生成的神奇之处之一在于,它为你提供了一种用于图像生成的新范例。对。就像如果你有一个非常复杂的提示,你知道你在谈论六种不同的编辑。如果我进行大约50种不同的编辑呢。对。现在模型有了一个非常好的机制,可以从上下文中获取信息,比如像素级的完美信息,并在下一个回合中使用它。你可以做的是,你可以要求模型分解复杂的提示。无论是编辑还是图像生成,都要分成多个步骤,并在不同的步骤中逐一进行编辑。所以对于第一个,你进行这样的编辑,比如这五件不同的事情。然后对于下一个,接下来的五个,等等,以此类推。

所以这非常类似于我们在语言方面拥有的测试和计算。所以你花费了更多的浮点运算,并让模型基本上将这种思考方式带入到像素空间中,并将其分解成更小的片段,这样你就可以真正地确定那个特定阶段,并进行累积。你可以做任何你想做的复杂任务。所以我认为,就像我再次强调的,这就是交错生成的魔力,我们可以考虑对真正复杂的图像进行增量式生成,而不是像传统方式那样,努力一次性获得最佳图像。对。 就像最终,你可以推进中间过程的能力是有限的,你在某个时刻会意识到,好吧,一百个细节。我们做不到。但是当你有了这种交错生成,并将其分解成多个步骤时,你总是可以生成任何你想要的容量和复杂度的内容。

Gemini vs. Imagen:如何选择合适的工具

主持人: 对我来说,始终需要重点考虑的一件事是,尤其是当你,妮可,你还是我们Imagen模型的项目经理。人们应该如何看待开发者,或者只是那些了解所有模型的人,比如Imagen,以及我们拥有的这种原生能力。

Nicole: 是的。 你也知道,我们的目标始终是利用Gemini构建一个模型,对吧。所以我们最终的目标始终是将所有的模态都引入Gemini,这样我们就可以从我刚才提到的所有知识转移中获益,并最终朝着AGI发展,对吧。在实现目标的道路上,拥有专门的模型非常有帮助,这些模型非常擅长你需要它们做的特定事情。Imagen 是一个很棒的文本图像生成模型,对吧。我们有很多不同的 Imagen 变体,也可以进行图像编辑,这些变体在 Vertex 中可用,并且专门针对该特定任务进行了优化,对吧。因此,如果你只想要文本到图像,并且只想要该模型生成的一张图像,你希望获得非常出色的视觉质量,并且还希望它在生成时间方面真正具有成本效益和快速。Imagen 是最佳选择,对吧。

如果你想要一些更复杂的工作流程,例如你想使用模型生成图像,然后你还想在同一个工作流程中进行编辑,并且你想跨多个回合进行操作。或者你想做一些像我们用模型做的这种构思,比如你知道,你能帮助我提出什么关于我的房间或这个图书馆的设计理念。那么 Gemini 是最佳选择,对吧。所以它真的是那种更多模式的创意伙伴。它可以输出图像,也可以输出文本。你可以对给到Gemini的指令稍微不那么精确,因为它就像我们在开头说的那样,让它变成纳米级别。因为logout具有那种世界理解能力,并且会更具创造性地解释你的指令。但是,如果开发者想要针对特定任务的超优化模型,Imagen仍然是一个很棒的模型系列。

主持人: 是的,我今天尝试的一个例子,我很好奇你对哪个模型的看法,或者说,如果原生图像生成模型解决了这个问题,就像我说的那样,生成这张图片,然后让它……这是我愚蠢的广告牌用例。我当时说,制作广告牌用例。我需要广告牌。使广告牌的风格与我提到的某家公司相同。这是原生图像生成受益的事情吗,因为它在世界知识方面稍微好一些,相对于Imagen来说,如果给它一个好的提示,它会非常擅长,但在理解我的暗示性提示方面却不太好。

Nicole: 你的真正意图。是的。所以我认为那是其中的一部分。另一部分是关于原生图像生成。如果你只是想获取你拥有的风格参考,比如你想模仿的另一家公司的风格,你也可以将其输入到模型中,并将其作为参考,对吧。因此,你可以输入一张图像作为参考,这有助于提示,而且在Gemini中比在Imagen中更容易做到。我会的。你应该试试。是的。你应该告诉我们。我们应该把这个添加到我们的邮件中。

主持人: 我会告诉你是否使用了广告牌。我会制作一个关于广告牌的邮件。我们会查看一下邮件。我喜欢那个。

从用户反馈到模型进化 (2.0 -> 2.5)

主持人: 回到这个话题,关于从2.0版本开始的进展。最有趣的事情之一是,当那个模型发布时,人们向我们发送了大量关于AI Studio中的体验,以及最终的Gemini应用程序的反馈。就像模型的一般故障模式以及所有那些东西。我对我最初的发布做出了我唯一的贡献,那就是添加了那个热门标签“Studio”。实际上,我们将为这个模型重新启用热门标签,并且它将从另一个模型上消失。比如,关于这个故事,我们可以谈论什么?关于进展,以及我们确实收到了大量反馈的故障模式,比如2.0版本中哪些地方不好用,而现在希望2.5版本中能很好地工作。

Robert: 是的,我的意思是,我们实际上坐在像X或Twitter这样的平台上,浏览了一堆反馈,我记得Kaushik和我以及其他一些团队收集了所有的失败案例,并以此进行了评估。所以我们有一个基准,来自像Twitter这样的真实用户反馈,人们@我们并说,嘿,这个不好用,而且对于我们将来制作的每一个模型,我们都会不断添加这些反馈,这样我们就知道,例如,当我们发布2.0版本时,我们有时会看到的一个失败案例是,如果你进行编辑,它会添加你的编辑,但它不一定与图像的其余部分一致。对。所以那是其中的一件事情,然后我们进行了爬山算法,还有很多其他的。所以我们总是不断地收集反馈。

主持人: 是的,请把那些效果不好的例子发给我们。你们有没有什么特别突出的例子,以前行不通,现在却能轻松搞定的?我不知道你们现在有没有什么想法,我想团队在使用这个模型时,在构建和实现过程中进行了大量的操作,我不知道你们有没有什么常用的用例来测试,并判断这是否是一个好的模型。

Kaushik: 是的,我认为我在使用2.5模型时特别注意到的一点是,在2.0模型中,我们曾经认为困难的一件事是图像之间的一致性,特别是当你有一个物体,或者说一个你正在构建的角色,并且你希望该角色在不同图像中保持一致的情况下。实际上,如果你把角色留在输入图像中的同一个位置,结果证明这非常容易,2.0模型可以很好地做到这一点,例如,它可以添加一顶帽子,改变表情等等,同时保持姿势和场景的整体结构不变。

2.5模型在2.0版本的功能基础上增加的功能是,你可以要求例如从不同的角度渲染角色,它看起来会是完全相同的角色,但例如从侧面看,或者你可以拿起一件家具,将其放置到完全不同的环境中,重新定向并创建一个完整的场景,但是那件家具会保持与你上传的原始家具的一致性,同时对其进行转换。非常实质性的方式,而不仅仅是将输入图像粘贴到输出图像中。

主持人: 我很喜欢我对于2.0的一些东西的反应之一,有时图像看起来几乎像是你添加了一些东西,比如我在我的脸上添加了一张图片,并添加了一个。傻乎乎的胡子或帽子之类的东西,它看起来几乎像是叠加的,或者像是经过Photoshop处理过的。这是否也是类似的情况?它与角色一致性似乎关系不大,但感觉像是一个类似的问题,即仅仅是从内存中获取像素,然后几乎将其放入图像中,而不是像素转移。我很好奇这是否是一个得到改进的功能。

Kaushik: 是的,实际上我认为这很大程度上归功于开发此模型的实际团队。之前的模型实际上我们的心态是,它完成了编辑,就这样,它成功了。但是当我们开始与Imagen团队越来越紧密地合作时,他们会看到与我们在Gemini这边看到的完全相同的编辑,然后他们会说这太糟糕了,你为什么会让模型做这样的事情,对吧。所以这是一个融合两个团队观点的例子。所以在Gemini这边,指令遵循、世界知识等等,然后在Imagen这边,使图像看起来自然、美观并真正有用。所以我认为这两者都需要,并且让这些团队一起工作,使得2.5在您所描述的事情上做得更好。我喜欢它。

Nicole: 是的,就这一点而言,我们团队中实际上有一些人主要来自Imagen团队,他们有着非常敏锐的审美情趣。所以很多时候,当我们进行评估时,他们实际上会查看成百上千张图像,然后说不,这个模型比另一个模型更好,而团队中的很多人会看看它,然后说好吧。你知道,就像你必须在几年内磨练那种敏感性一样,我认为我这些年来在这方面做得好多了,但团队中肯定有人在这方面非常出色,我们总是去找他们,然后试图在模型之间做出选择。

未来展望:追求“智能”与“事实性”

主持人: 你能训练自动评分器来评估人们的喜好吗?

Nicole: 我们目前还无法做到。

主持人: 那是个有趣的业余项目。

Nicole: 那是个有趣的业余项目。我非常期待Gemini变得更好,拥有一种基于审美的自动评分理解能力,你知道,这要感谢团队里一位在这方面非常出色的人。

Mostafa: 让她来为这个提供训练信号就行了。

Nicole: 是的,是的。干得漂亮。我们会把这作为之后的业余项目。

主持人: 我喜欢这个。在2.5版本上有很多进展,而且很明显,我认为大家会非常兴奋地尝试这个模型和所有相关的东西。接下来是什么。我们已经制作了一个很棒的模型。我相信我们在pipeline中还有更多正在酝酿的东西,但我不知道我们想对未来的方向以及未来有望实现的其他功能说多少。

Mostafa: 所以,当涉及到图像生成时,我认为我们确实关心视觉质量。但我认为有一件事,再次像你一样,我们希望通过统一的Omni模型来实现的是智能化,你知道,你希望你的图像生成模型感觉很智能,你知道,当用户与之互动时。不仅他们对图像的质量印象深刻,而且他们觉得,哇,这很智能,你知道,我脑海中有一个例子,我期待着看到这种情况发生,这有点争议,因为我甚至无法很好地定义它。当模型要求模型做某事时,它没有遵循我的指示,但它做了某件事,在生成结束时,我说我很高兴它没有遵循我的指示。它甚至比我实际描述的还要好。所以,它有这种边缘性,你知道。

主持人: 这就像,你认为这个模型是有意这样做的,还是说这有点像无意的意外?你是想表达这个意思吗?

Mostafa: 不,不,不仅仅是这样,但基本上,你知道,就像有时候,你知道,欠规范,或者有时候你对某些现实的东西想错了,但是,你知道,有了 Gemini 的知识,外部世界与你的视角不同,对吧?而且我认为,再说一遍,这并不是故意的,或者说只是自然发生的。而且我认为,再说一遍,你只是觉得我正在与一个比我更聪明的系统互动。当我要求提供一些图像时,如果它偏离了我的提示,生成了与我要求的不同的东西,我并不介意,因为它通常比我脑海中的想法更好。所以,我认为绝对的,高水平的智能是我们正在推进的方向,同时保持或提高视觉质量。但是有很多细节、能力和用例,特别是对于开发者来说,我认为这次发布有一些,但下次发布也会有,而且我们还有这些正在筹备中的发布。我不能分享时间表,但这太令人兴奋了。是的,应该,也许应该,是的。但我太激动了。我很高兴,而且这种势头是前所未有的,比如在图像生成方面。

主持人: 我喜欢那样。各位对其他什么功能感到兴奋吗?

Nicole: 我对事实性非常兴奋。就像这又回到了那个观点,有时你可能需要为工作演示制作一个小图表或信息图,对吧?就像,如果它看起来不错,那就太棒了,但这对于那种用例来说是不够的,对吧。就像它实际上必须是,它必须是准确的,你不能有任何外部文本,就像它必须既好看又对该目的具有功能性。而且我认为我们只是初步了解了这些模型套件能做到什么。我对即将发布的一些版本感到非常兴奋,比如我们在这种类型的用例中做得更好,这样我梦想有一天这些模型实际上可以为我制作一个用于工作的幻灯片演示文稿,而且看起来不错。

主持人: 这是每个产品经理的梦想。

Nicole: 每个产品经理的梦想。我正尝试将我工作的那部分外包给 Gemini。而且我认为我们在这方面扮演着非常重要的角色。

主持人: 太棒了。我喜欢。好吧,我认为大家都会非常兴奋地尝试这些模型。感谢你们四位以及团队的其他成员促成此事。所以我感谢所有的辛勤工作。我对此感到兴奋。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。