当前位置：首页 » 资讯 » 新科技 » 正文

「香蕉革命」首揭秘！谷歌疯狂工程师死磕文字渲染，竟意外炼出最强模型

IP属地中国·北京 编辑：苏婉清新智元 时间：2025-08-29 14:22:58

新智元报道
编辑：定慧好困
谷歌最新图像模型nano banana横空出世，它不仅能融合多张图片拼接出全新画面，还能理解地理、建筑与物理结构，甚至将二维地图转化为三维景观。凭借Gemini的世界知识与交错生成技术，模型实现了「有记忆」的多轮创作，带来极高一致性与创造力。nano banana正在重塑AI图像生成的边界，也引发了「AI创意伙伴」未来的无限遐想。
纳尼(°ロ°)，怎么AI圈子突然就开始「纳米香蕉革命」了。
谷歌没想到自己发布了一个，直接就引爆了社区！
最近这个香蕉实在太火了，仿佛又回到几个月前的OpenAI的「吉卜力热」盛况。

图片由nano banana生成，这个超人COS太赞了
但这次谷歌nano banana带来了更多颠覆性的玩法，不像吉卜力只有一个生成风格，估计谷歌都没有想到网友们的创新力量太绝了。
比如你可以最多上传13张图片，然后让nano banana合并起来。

你能相信上面的图片是AI用下面这些「零件」组合起来的吗？

按照谷歌的说法，这次nano banana不仅是一个图像模型，而且具备Gemini强大的世界知识。
这让nano banana的理解能力来到一个新的维度（文章后面有谷歌团队专访，揭秘了模型背后的最新技术路线）。

既然可以拼接物理世界的物体，那是不是可以「拼接」人物动作？

这不就是妥妥的分镜吗？然后网友继续用海螺AI制作了如下短片。
感觉用AI拍电影也不是不可能啊！
由于nano banana拥有Gemini的世界知识，你只需上传现实世界的截图，就能让它为你标注内容。
比如在画面中标注东京塔。

还可以标注更多建筑。

左右滑动查看
甚至使用机器人视角，勾勒人物轮廓，这不就是终结者视角吗？赛博朋克味来了！

最神奇的是，nano banana可以从「二维地图」看出「三维世界」。
网友们非常喜欢的用纳米香蕉变换谷歌地图「红色箭头看到了什么」.
比如从西边这个角度看过去的金门大桥。

或者从东边看过去的东京塔。

更神奇的是，纳米香蕉似乎真的理解了地理中的等高线知识，可以从等高线直接绘制出真实地理地貌。

甚至以前让我们头痛的工程绘图视角，都能轻松拿捏。

可以将任意一张图渲染成上、下、左、右、前、后视图。

甚至可以使用nano banana来给自己定制试衣服，任何元素都可以「穿在」身上。

不仅不用再穿衣服，连动作都可以直接复刻。
X上网友@ZHO_ZHO_ZHO用人像+动作框架就可以直接完成摄影棚级别的拍摄效果。

反过来也没问题，可以从图像中，提取现实建筑的物理结构。

甚至，还可以「逆向」P图，首先把原图改为黑白色线框，然后再选择自己喜欢的颜色，最后给图片重新上色。

nano banana转化线稿和上色非常的精准

当然，脑洞和整蛊是不可能缺席的。
比如让奥特曼穿着衣服来玩鞍马。

除了可以做出「新的」图片，nano banana还能修复「老」照片。
补充破损、折痕，还能还原被时间抹去的清晰画面。

由于纳米香蕉nano banana实在太火了，甚至有网友表示，应该给起名字的工程师加薪。

此前nano banana在LMArena上线后迅速风靡。
最终盲测下，Gemini 2.5 Flash Image成绩一骑绝尘。
谷歌这个nano banana明显不同于之前的图像模型，比如GPT-4o原生图像模型，能力确实上了一个台阶。
纳米香蕉背后是否有新的技术，新的体系引进？
正好，谷歌DeepMind团队刚刚接受了采访，讲述了模型背后的故事。
「纳米香蕉革命」
nano banana幕后首次公开
nano banana项目负责人和研究员接受DeepMind产品负责Logan Kilpatrick播客采访，揭秘了模型背后的技术密码：
模型可以访问多模态上下文，然后生成图像。所以模型可以选择查看之前的图像，并尝试生成与之非常不同的东西。
交错生成的神奇之处在于，它为你提供了一种用于图像生成的新范例……将复杂的提示分解成多个步骤，并在不同的步骤中逐一进行编辑。
未来的发展方向是让模型不仅能生成高质量图像，更能理解深层意图……甚至超越用户指令，提供更有创造性的结果，并确保内容的真实性和准确性。
在谷歌DeepMind的访谈现场，主持人Logan Kilpatrick成了新一代Gemini图像模型的首位「受害者」。
产品经理Nicole上传了他的照片，然后向模型下达了一个看似无厘头的指令：
「拉远镜头，给他穿上一套巨大的香蕉服，脸要露出来。」

短短几秒后，结果呈现在屏幕上。
照片里的Logan依然是他，但身上却天衣无缝地套着一件亮黄色的香蕉道具服，背景切换到了芝加哥的街景。
「太有趣了，」Logan惊叹道，「这张照片是在芝加哥拍的，那条街实际上差不多就是那个样子。」

「纳米香蕉」是个什么梗
紧接着，Nicole又输入了一个更神秘的指令：「把它变成nano风格。」
「这是什么意思？」Logan一头雾水。

屏幕上，一个穿着香蕉服的Q版Logan出现了，可爱又精致。
谜底揭晓：原来，「nano banana」（纳米香蕉）是这款新模型在早期匿名测试平台LMArena上使用的代号。
这个模型聪明到能理解这个「内部梗」，并以极富创意的方式执行了指令。

这种「聪明」的背后，是新模型最核心的技术——原生与交错式生成（Native and Interleaved Generation）。
对于传统的图像模型来说，每次编辑都像是一次「失忆」后的重新创作；相比之下，Gemini则像是一位「有记忆」的画家。
也就是，当Gemini进行多轮创作时，一切都在模型的上下文中——它记得上一笔画了什么，也理解对话的来龙去脉。
为了证明这一点，团队展示了另一个酷炫的例子：「把主体变成五种不同的1980年代美式商场风。」

模型不仅在短短13秒内生成了五张风格各异但主角高度一致的照片，甚至还贴心地为每张图起了「街机之王」、「酷盖」、「泡商城达人」、「淡定哥」这样充满年代感的标题。

左右滑动查看
而且，这不仅对角色构建有用，你也可以拍下自己房间的照片，让它帮你设计五种不同的装修风格。
在谷歌内部，已经有很多人用它来重新设计自己的花园和房间了！
在推特「差评榜」上淬炼
有趣的是，如此强大的模型，竟然是在网友的各种吐槽中诞生的。
研究工程师Robert坦诚地回忆：「（2.0版本发布后）我们真的就坐在X（推特）上，一条条地看用户的反馈和抱怨。」
比如「编辑后图像风格不统一」、「修改了不该改的地方」等等都会收集起来，并制作成一个专门的内部评估基准——一个名副其实的「推特差评榜」。

在训练过程中，有一个问题曾让研究员Kaushik近乎「疯狂」地执着——文字渲染。
「我们曾经在很长一段时间里对他置之不理，」Robert开玩笑说，「觉得这家伙有点疯狂，对文字渲染也太执着了。」
但Kaushik的坚持，最终得到了证明。
具体来说就是，当一个模型能精准地渲染出文字的笔画结构时，它对整个图像的宏观与微观结构的理解力也会随之跃升。

而这个曾经被忽视的细节，最终也成了模型能力进化的关键信号。
Gemini x Imagen秘密联姻
那么，新模型是如何在「聪明」（遵循指令）和「好看」（图像质量）之间取得完美平衡的呢？
答案在于一次关键的内部合作：Gemini团队与Imagen团队的强强联合。
你可以把Gemini团队理解为模型的「大脑」，他们赋予模型世界知识、强大的逻辑推理和指令遵循能力。

而Imagen团队，则像是模型的「艺术总监」，他们拥有「被磨练出的、极其敏锐的审美品味」。

对此，Kaushik分享了一个十分戏剧性的场景：「以前我们觉得一个编辑成功了，只要指令完成了就行。但Imagen团队的同事看到后，会直截了当地吐槽说：这太糟糕了。你怎么会想让模型做出这种东西来？！」
是的，团队里真的会有对美学非常敏感的成员，去仔细地审查成百上千张图片，并且仅凭肉眼就能判断出模型间的细微优劣。
大家甚至开玩笑说，未来的目标是根据他们的品味，训练一个「审美自动评分器」。

一个比你更聪明的创意伙伴
最后，当被问及未来时，团队的想象力被彻底打开。
Nicole的梦想，可以说是击中了每一个PM的心：「我希望有一天，这个模型能直接为我制作一套看起来很棒的工作幻灯片。它不仅要好看，所有图表和数据都必须是事实准确（Factuality）的。」

而研究员Mostafa的愿景则更具哲学思辨，也更令人激动。他期待的不仅仅是高质量的图像，而是一种全新的智能——「Smartness」。
「我期待这样一种情况：我让模型做一件事，它没有完全遵循我的指令。但在看到结果后，我反而会说：我很高兴它没听我的，这结果比我实际描述的还要好！」

在Mostafa看来，这并非模型的「失误」或「意外」，而是一种更高层次的智能涌现。
当AI的知识和视角超越用户时，它不再是一个被动的工具，而是一个能主动提供更优解的、比你更「聪明」的创意伙伴。
参考资料：
https://x.com/6xyzzxy1/status/1960736252661260294
https://x.com/Error_HTTP_404/status/1960405116701303294
https://x.com/tokumin/status/1960583251460022626
https://x.com/op7418/status/1960362278357987649
https://x.com/skirano/status/1960343968320737397
https://x.com/yachimat_manga/status/1960555945131696329
https://x.com/alex_prompter/status/1960773176264118429
https://x.com/bilawalsidhu/status/1960529167742853378

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华盛顿邮报：中国目前在人工智能这一关键环节领先于美国

28.58万元起魏牌高山7正式上市：定位中大型MPV车型

长安启源全新Q05盲订：定位小型SUV，基于天枢架构纯电平台打造

极氪：2026年极氪001没有产品换代和产品更名计划

三花智控辟谣：获得特斯拉Optimus机器人大额订单的传言不属实

法拉利首款电车，一亮相就蒸发127亿市值？

全站最新

华盛顿邮报：中国目前在人工智能这一关键环节领先于美国

28.58万元起魏牌高山7正式上市：定位中大型MPV车型

长安启源全新Q05盲订：定位小型SUV，基于天枢架构纯电平台打造

极氪：2026年极氪001没有产品换代和产品更名计划

热门推荐

奢侈品折扣爆火，“越涨越买”的时代结束了

即梦VS可灵，谁能「对标」Sora2？

9月份中国电商物流指数公布，继续刷新年内新高

马斯克称相信星舰会将人类送上火星

三花智控：未获得特斯拉机器人大额订单，传言不属实

汕头唯一西贝门店将闭店

于东来：胖东来账上资金41亿元，没有贷款

库克现身北京将府公园，同开发者散步聊天

小米汽车转单市场转冷，订单回收价跌至2000元，两月前曾溢价2万\n

华盛顿邮报：中国目前在人工智能这一关键环节领先于美国

28.58万元起魏牌高山7正式上市：定位中大型MPV车型

长安启源全新Q05盲订：定位小型SUV，基于天枢架构纯电平台打造

极氪：2026年极氪001没有产品换代和产品更名计划

三花智控辟谣：获得特斯拉Optimus机器人大额订单的传言不属实

法拉利首款电车，一亮相就蒸发127亿市值？