当前位置: 首页 » 资讯 » 新科技 » 正文

「香蕉革命」首揭秘!谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型

IP属地 中国·北京 编辑:苏婉清 新智元 时间:2025-08-29 14:22:58


新智元报道

编辑:定慧 好困

谷歌最新图像模型nano banana横空出世,它不仅能融合多张图片拼接出全新画面,还能理解地理、建筑与物理结构,甚至将二维地图转化为三维景观。凭借Gemini的世界知识与交错生成技术,模型实现了「有记忆」的多轮创作,带来极高一致性与创造力。nano banana正在重塑AI图像生成的边界,也引发了「AI创意伙伴」未来的无限遐想。

纳尼(°ロ°),怎么AI圈子突然就开始「纳米香蕉革命」了。

谷歌没想到自己发布了一个,直接就引爆了社区!

最近这个香蕉实在太火了,仿佛又回到几个月前的OpenAI的「吉卜力热」盛况。


图片由nano banana生成,这个超人COS太赞了

但这次谷歌nano banana带来了更多颠覆性的玩法,不像吉卜力只有一个生成风格,估计谷歌都没有想到网友们的创新力量太绝了。

比如你可以最多上传13张图片,然后让nano banana合并起来


你能相信上面的图片是AI用下面这些「零件」组合起来的吗?


按照谷歌的说法,这次nano banana不仅是一个图像模型,而且具备Gemini强大的世界知识。

这让nano banana的理解能力来到一个新的维度(文章后面有谷歌团队专访,揭秘了模型背后的最新技术路线)



既然可以拼接物理世界的物体,那是不是可以「拼接」人物动作?


这不就是妥妥的分镜吗?然后网友继续用海螺AI制作了如下短片。

感觉用AI拍电影也不是不可能啊!

由于nano banana拥有Gemini的世界知识,你只需上传现实世界的截图,就能让它为你标注内容。

比如在画面中标注东京塔。


还可以标注更多建筑。





左右滑动查看

甚至使用机器人视角,勾勒人物轮廓,这不就是终结者视角吗?赛博朋克味来了!


最神奇的是,nano banana可以从「二维地图」看出「三维世界」。

网友们非常喜欢的用纳米香蕉变换谷歌地图「红色箭头看到了什么」.

比如从西边这个角度看过去的金门大桥。


或者从东边看过去的东京塔。


更神奇的是,纳米香蕉似乎真的理解了地理中的等高线知识,可以从等高线直接绘制出真实地理地貌。


甚至以前让我们头痛的工程绘图视角,都能轻松拿捏。


可以将任意一张图渲染成上、下、左、右、前、后视图。


甚至可以使用nano banana来给自己定制试衣服,任何元素都可以「穿在」身上。


不仅不用再穿衣服,连动作都可以直接复刻。

X上网友@ZHO_ZHO_ZHO用人像+动作框架就可以直接完成摄影棚级别的拍摄效果。



反过来也没问题,可以从图像中,提取现实建筑的物理结构。


甚至,还可以「逆向」P图,首先把原图改为黑白色线框,然后再选择自己喜欢的颜色,最后给图片重新上色。


nano banana转化线稿和上色非常的精准


当然,脑洞和整蛊是不可能缺席的。

比如让奥特曼穿着衣服来玩鞍马。


除了可以做出「新的」图片,nano banana还能修复「老」照片。

补充破损、折痕,还能还原被时间抹去的清晰画面。


由于纳米香蕉nano banana实在太火了,甚至有网友表示,应该给起名字的工程师加薪。


此前nano banana在LMArena上线后迅速风靡。

最终盲测下,Gemini 2.5 Flash Image成绩一骑绝尘。

谷歌这个nano banana明显不同于之前的图像模型,比如GPT-4o原生图像模型,能力确实上了一个台阶。

纳米香蕉背后是否有新的技术,新的体系引进?

正好,谷歌DeepMind团队刚刚接受了采访,讲述了模型背后的故事。

「纳米香蕉革命」

nano banana幕后首次公开

nano banana项目负责人和研究员接受DeepMind产品负责Logan Kilpatrick播客采访,揭秘了模型背后的技术密码:

模型可以访问多模态上下文,然后生成图像。所以模型可以选择查看之前的图像,并尝试生成与之非常不同的东西。

交错生成的神奇之处在于,它为你提供了一种用于图像生成的新范例……将复杂的提示分解成多个步骤,并在不同的步骤中逐一进行编辑。

未来的发展方向是让模型不仅能生成高质量图像,更能理解深层意图……甚至超越用户指令,提供更有创造性的结果,并确保内容的真实性和准确性。

在谷歌DeepMind的访谈现场,主持人Logan Kilpatrick成了新一代Gemini图像模型的首位「受害者」。

产品经理Nicole上传了他的照片,然后向模型下达了一个看似无厘头的指令:

「拉远镜头,给他穿上一套巨大的香蕉服,脸要露出来。」


短短几秒后,结果呈现在屏幕上。

照片里的Logan依然是他,但身上却天衣无缝地套着一件亮黄色的香蕉道具服,背景切换到了芝加哥的街景。

「太有趣了,」Logan惊叹道,「这张照片是在芝加哥拍的,那条街实际上差不多就是那个样子。」


「纳米香蕉」是个什么梗

紧接着,Nicole又输入了一个更神秘的指令:「把它变成nano风格。」

「这是什么意思?」Logan一头雾水。


屏幕上,一个穿着香蕉服的Q版Logan出现了,可爱又精致。

谜底揭晓:原来,「nano banana」(纳米香蕉)是这款新模型在早期匿名测试平台LMArena上使用的代号。

这个模型聪明到能理解这个「内部梗」,并以极富创意的方式执行了指令。


这种「聪明」的背后,是新模型最核心的技术——原生与交错式生成(Native and Interleaved Generation)

对于传统的图像模型来说,每次编辑都像是一次「失忆」后的重新创作;相比之下,Gemini则像是一位「有记忆」的画家。

也就是,当Gemini进行多轮创作时,一切都在模型的上下文中——它记得上一笔画了什么,也理解对话的来龙去脉。

为了证明这一点,团队展示了另一个酷炫的例子:「把主体变成五种不同的1980年代美式商场风。」


模型不仅在短短13秒内生成了五张风格各异但主角高度一致的照片,甚至还贴心地为每张图起了「街机之王」、「酷盖」、「泡商城达人」、「淡定哥」这样充满年代感的标题。





左右滑动查看

而且,这不仅对角色构建有用,你也可以拍下自己房间的照片,让它帮你设计五种不同的装修风格。

在谷歌内部,已经有很多人用它来重新设计自己的花园和房间了!

在推特「差评榜」上淬炼

有趣的是,如此强大的模型,竟然是在网友的各种吐槽中诞生的。

研究工程师Robert坦诚地回忆:「(2.0版本发布后)我们真的就坐在X(推特)上,一条条地看用户的反馈和抱怨。

比如「编辑后图像风格不统一」、「修改了不该改的地方」等等都会收集起来,并制作成一个专门的内部评估基准——一个名副其实的「推特差评榜」。


在训练过程中,有一个问题曾让研究员Kaushik近乎「疯狂」地执着——文字渲染

「我们曾经在很长一段时间里对他置之不理,」Robert开玩笑说,「觉得这家伙有点疯狂,对文字渲染也太执着了。」

但Kaushik的坚持,最终得到了证明。

具体来说就是,当一个模型能精准地渲染出文字的笔画结构时,它对整个图像的宏观与微观结构的理解力也会随之跃升。



而这个曾经被忽视的细节,最终也成了模型能力进化的关键信号。

Gemini x Imagen秘密联姻

那么,新模型是如何在「聪明」(遵循指令)和「好看」(图像质量)之间取得完美平衡的呢?

答案在于一次关键的内部合作:Gemini团队与Imagen团队的强强联合

你可以把Gemini团队理解为模型的「大脑」,他们赋予模型世界知识、强大的逻辑推理和指令遵循能力。


而Imagen团队,则像是模型的「艺术总监」,他们拥有「被磨练出的、极其敏锐的审美品味」。



对此,Kaushik分享了一个十分戏剧性的场景:「以前我们觉得一个编辑成功了,只要指令完成了就行。但Imagen团队的同事看到后,会直截了当地吐槽说:这太糟糕了。你怎么会想让模型做出这种东西来?!

是的,团队里真的会有对美学非常敏感的成员,去仔细地审查成百上千张图片,并且仅凭肉眼就能判断出模型间的细微优劣。

大家甚至开玩笑说,未来的目标是根据他们的品味,训练一个「审美自动评分器」。


一个比你更聪明的创意伙伴

最后,当被问及未来时,团队的想象力被彻底打开。

Nicole的梦想,可以说是击中了每一个PM的心:「我希望有一天,这个模型能直接为我制作一套看起来很棒的工作幻灯片。它不仅要好看,所有图表和数据都必须是事实准确(Factuality)的。」



而研究员Mostafa的愿景则更具哲学思辨,也更令人激动。他期待的不仅仅是高质量的图像,而是一种全新的智能——「Smartness」

「我期待这样一种情况:我让模型做一件事,它没有完全遵循我的指令。但在看到结果后,我反而会说:我很高兴它没听我的,这结果比我实际描述的还要好!


在Mostafa看来,这并非模型的「失误」或「意外」,而是一种更高层次的智能涌现。

当AI的知识和视角超越用户时,它不再是一个被动的工具,而是一个能主动提供更优解的、比你更「聪明」的创意伙伴。

参考资料:

https://x.com/6xyzzxy1/status/1960736252661260294

https://x.com/Error_HTTP_404/status/1960405116701303294

https://x.com/tokumin/status/1960583251460022626

https://x.com/op7418/status/1960362278357987649

https://x.com/skirano/status/1960343968320737397

https://x.com/yachimat_manga/status/1960555945131696329

https://x.com/alex_prompter/status/1960773176264118429

https://x.com/bilawalsidhu/status/1960529167742853378


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。