当前位置: 首页 » 资讯 » 新科技 » 正文

谷歌Nano Banana Pro炸了!硅谷AI半壁江山同框,网友:PS已死

IP属地 中国·北京 新智元 时间:2025-11-21 06:08:38


新智元报道

编辑:编辑部

Gemini 3 Pro刚炸完,谷歌又在深夜扔出了「AI图像新神」Nano Banana Pro!它用像素级的恐怖细节和完美的汉字渲染告诉世界,谁才是AI生图真正的王者。

Gemini 3 Pro甫一亮相,新一代模型又接踵而至。

就在刚刚,谷歌正式祭出最强图像生成模型——Nano Banana Pro,基于最新Gemini 3 Pro打造。

官名称作,Gemini 3 Pro Image。


正如传闻中所言,Nano Banana Pro就是AI图像界的「新神」,不论在图像编辑还是在生成上,都实现了史诗级进化。

它的知识储备更广,文字渲染超强,而且细节把控精准到了「像素级」。

不仅如此,Nano Banana Pro在做复杂信息图简直开挂,接近工程师眼中的世界。

基准测试中,新版Nano Banana相较于上一代性能显著提升,GPT-Image、Flux Pro Kontext Max根本无法相提并论。





左右滑动查看

这一次,Nano Banana Pro还支持4K原生,速度更快,成本也有所提升。

生成的细节,只能用「恐怖」形容。尤其是以前生成的中文就像「鬼画符」,如今汉字水平一流。





左右滑动查看

谷歌刚官宣没几分钟,全网再度陷入狂欢,一大波实测汹涌来袭。


一句鸡汤、一句古诗,甚至是一大段文言文,Nano Banana Pro一键直出颇有意境的图片,而且手写汉字完美到几乎没有一点瑕疵。







左右滑动查看




左右滑动查看

以上中文作品来自X网友:@CaomuQ625、@0xbisc、@Peanut_zhc、@frxiaobei、@0xPlato、@dylandddeng

真PS时代终结者,降临了!


三个月,终极进化

三个月前,为创意而生的Nano Banana(Gemini 2.5 Flash)出世后,一夜爆红全网。

从修复老照片到生成3D迷你手办,Nano Banana在图像编辑上树立了新里程碑。

任何人天马行空的想法,皆可变为现实。

如今,进阶版Nano Banana Pro出世,谷歌仅用三个月的时间,完成了另一次蜕变。

不管是产品原型,还是将数据、手写笔记转变为信息/专业图表它都能一键可视化设计,让创意轻松成真!


Hassabis称自己长期以来梦想之一,是创造出室温超导体。

这不,他让Nano Banana Pro帮忙脑补了一下。


知识推理更强,直连搜索

背靠Gemini 3高级推理能力,Nano Banana Pro不仅能生成精美图像,还能创作更有用的内容。

它可以连接到Google搜索的庞大的知识库,从快速生成食谱,到可视化天气、体育赛事等实时信息,皆可轻松实现。

如下图所示,Nano Banana Pro通过搜索获取实时天气信息,构建了一张波普艺术风格的信息图表。


相比之前的图像生成模型,Nano Banana Pro在内容准确性上显著提升,能生成更贴近事实的素材。

当启用基于Google搜索的功能时,模型将直接连接实时网络内容,确保输出内容与最新数据一致。

这对于需要精确呈现的应用场景特别有价值,比如生物结构图、历史地图。

就比如,让Nano Banana Pro创建一个室内植物「海龟串」(String of Turtles)的信息图表,包含原产地、养护要点和生长习性等信息。


提示词:制作一张关于这种植物的信息图表,重点关注有趣的信息

它还可以生成精准的教育演示图,无论是理解全新知识,还是呈现复杂信息。

下图中,Nano Banana Pro生成了自行车护理的步骤图。


再比如,它可以直出白光通过三棱镜被分解成彩色光,又通过第二个三棱镜重新组合成白光的过程。


文字秒生,还支持多语种

在文字渲染上,Nano Banana Pro再次刷新天花板。

不论是简短的标语,还是长段落,它都能在图像中直接生成渲染精准、清晰易读的文本,堪称目前最佳模型

这正是因为在理解图像深度与细节方面的卓越表现,Gemini 3为图像编辑与创作开启了全新可能。

如今,人们可以在样品、海报中融入更丰富的文字细节,体验更多元的纹理、字体与书法效果。

相较于Nano Banana,Pro版更擅长处理逻辑和语言,生成清晰、准确且完美融合的文本。

下图中,生成了一张创意美食摄影,其中每个单词都用与食物相关的实际食材,以艺术形式拼写出来。


提示词:制作8个精致的极简主义Logo,每个都是一个有趣的食物单词,并用逼真的食物制作字母来表达这个单词的含义。构图:在单一纯白色背景上渲染所有Logo

而且,用Nano Banana Pro做营销物料、教育内容、应用程序等,特别合适。

在Google AI Studio漫画生成器中,可以生成独一无二的多页漫画,连对白字体、画风都可以玩出高级花样。

根据照片和选定的题材,创建所选语言的漫画书

借助Gemini增强的多语言推理能力,Nano Banana Pro还可以生成多种语言的文本,或对内容进行本地化和翻译。

它能理解图像的语义语境,利用图生图技术,轻松实现菜单、标志或文档等元素上的语言转换,同时保持原始的艺术风格或版式布局。

比如输入一张英文饮料广告的原图,Nano Banana Pro直出法语版本。


提示词:翻译成法语

下面demo,皆是Nano Banana Pro在文本渲染上强大能力的体现。


提示词:在一个阳光明媚的日子里,柏林一条舒适街道的景色,阴影鲜明。老房子形状奇特,像拼写出「BERLIN」的字母,颜色为蓝色、红色、白色和黑色。房子看起来仍然像房子,与字母的相似之处处理得很微妙


提示词:制作8个极简主义Logo,每个都是一个富有表现力的单词,并使字母在视觉上传达信息或声音,以戏剧性的方式表达该单词的含义。构图:所有Logo在一个白色背景上的黑色平面矢量渲染


提示词:在有纹理的米白色背景上,设计一个充满活力、引人注目的「TYPOGRAPHY」字样。字母粗大、块状、超压缩,通过重叠的亮蓝色和热粉色层营造出3D效果,每层都有半色调圆点图案,唤起复古印刷美学。比例是16:9

4K直出,创意无限

一起看看Nano Banana Pro的新特性,以及大家都有哪些脑洞吧。

设计的一致性

Nano Banana Pro可以融合比以往更多的元素,使用多达14张图像,并保持多达5个人物的连贯性和相似度。

这一能力,可谓业界No.1。

如下所示,一次性上传14张毛绒怪图片,Nano Banana Pro可以把它们全部塞进一张图中,还能保持角色的高度一致性。


提示词:14个毛茸茸的角色并排挤在一张破旧的米色布艺沙发和地板上的中景镜头。他们都面向前方,看着沙发前一张低矮木桌上的一台老式木盒电视机。房间光线昏暗,左侧窗户透进温暖的光线,电视的光芒照亮了生物的脸和毛茸茸的纹理。背景是一个舒适、略显杂乱的客厅,有编织地毯、装满旧书的书架,背景中有乡村厨房元素。整体氛围温暖、舒适且有趣

不管是草图变实物,还是把设计图做成逼真3D模型,它都可以轻松搞定,让想法和成品之间不再有鸿沟。

想要什么风格、什么质感,一键都能套用到样品,确保你的品牌在每个接触点都保持无缝和一致。

各种超现实景观,给到多种元素组图,Nano Banana Pro将其无缝融合。


提示词:将这些图像组合成一张16:9格式的适当排列的电影感图像

再比如,以沙漠景观为背景的高级时尚大片,六张图合一,人物连贯一致性超丝滑。


提示词:将这五个人和这只狗放入一张图片中,他们应该适合一张令人惊叹的获奖照片,风格是 [sic] 时尚社论。所有五个人的身份和他们的服装以及狗必须始终保持一致,但他们可以而且应该从不同的角度和距离被看到,就像 [sic] 对场景来说最自然和合适的那样。使颜色和灯光在他们身上看起来自然,让他们看起来像是自然地融入了这个时装秀

工作室级的创意控制

想要玩转各种创意,你说了算。

也就是说,想要P任何细节,通过Nano Banana Pro升级的局部编辑功能,可选择、细化和变换图像的任何部分。

甚至,还可以调整摄像机角度,更改焦点并应用复杂的色彩分级,就连场景照明都能变。

比如,将白天更改为夜晚或创建散景效果,如下所示,展示了迷失在金色散景与晨雾海洋中的剪影。


提示词:用散景替换体积光

再比如,使用照明控制遮蔽或照亮图像的一部分,实现特定的戏剧效果。


提示词:生成具有强烈明暗对照(chiaroscuro)效果的图像。该男子应保留其原始特征和表情。引入刺眼的定向光,似乎来自上方并略微偏左,在脸上投下深邃、清晰的阴影。只有几缕光照亮他的眼睛和颧骨,脸部的其余部分处于深深的阴影中

而且,Nano Banana Pro有更多比例可选,2K和4K都支持。


结合参考图像让产品设计栩栩如生

网友脑洞大开,设计门槛踢碎了

要说Nano Banana Pro的玩法,还是这届网友脑洞大,生成的一大波实测比谷歌demo样本更有创意。




左右滑动查看

生成一张黑板图,勾股定理解题一键完成。


物理定律,轻松解析。




左右滑动查看

就连对玻璃和光线的理解,都十分到位:


英伟达刚刚公布的Q3财报,一图搞定,打工人以后做PPT交给Nano Banana Pro就可以了。


上传一张建筑平面设计图,Nano Banana Pro瞬间转化为3D模型,活灵活现。



各种文本渲染,完全不在话下。







左右滑动查看

就连手写字的镜像细节,也与物理世界理解一致。


顺便,还能复刻一下推特主页的设计草图。


AI界大佬们一张合影,比真人还真。


最常见的OOTD,Nano Banana Pro更精进了。


上传一张手指原图,甚至还能解析出「指纹」,就差变身破案侦探了。


7个技巧,玩转「纳米香蕉Pro」

确立愿景:故事、主体与风格

为了获得最佳效果并拥有更细腻的创意控制权,请在你的提示词中包含以下要素:

主体:图像中是谁或什么?请具体描述。(例如:一位眼神冷峻、拥有发光蓝色光学元件的机器人咖啡师;一只戴着迷你巫师帽的毛茸茸三花猫)

构图:镜头的取景方式是怎样的?(例如:大特写、广角镜头、低角度镜头、人像)

动作:正在发生什么?(例如:正在冲泡一杯咖啡,正在施展魔法,在田野中奔跑的瞬间)

地点:场景发生在哪里?(例如:火星上的未来派咖啡馆,一间杂乱的炼金术士图书馆,黄金时刻阳光普照的草地)

风格:整体审美风格是什么?(例如:3D动画、黑色电影风格、水彩画、超写实、90年代产品摄影风格)

编辑指令若要修改现有图像,请直接且具体。(例如:将男子的领带改为绿色,移除背景中的汽车)


细化细节:相机、灯光与格式

虽然简单的提示词依然有效,但要获得专业级的结果,需要更具体的指令。在编写提示词时,请超越基础描述,考虑以下高级要素:

构图与纵横比:定义画布。(例如:一张9:16的垂直海报;富有电影感的21:9广角镜头)

相机与灯光细节:像电影摄影师那样执导镜头。(例如:低角度镜头,浅景深(f/1.8);黄金时刻的逆光创造出长长的阴影;带有柔和青色调的电影色彩分级)

特定文本集成:清楚说明应该出现的文本内容及其外观。(例如:标题「URBAN EXPLORER」以粗体、白色无衬线字体呈现在顶部)

事实约束(用于图表):说明对准确性的要求,并确保你的输入本身是符合事实的。(例如:科学准确的横截面图;确保维多利亚时代的历史准确性)

参考输入:使用上传的图像时,明确定义每张图像的作用。(例如:使用图像A作为角色的姿势,图像B作为艺术风格,图像C作为背景环境)


提示词示例:创意技巧展示

不同的提示词策略可以帮助你创作从超写实编辑到奇幻新世界的各种内容。

1. 生成具有惊人文本渲染效果的视觉作品

清晰、易读的文本有助于创作出极具冲击力的海报、复杂的图表,甚至是精细的产品样品。


提示词:为这个场景创建一个黑白故事板草图,展示电影的定场镜头、中景镜头、特写镜头和POV镜头


提示词:创建一张图片,显示短语「How much wood would a woodchuck chuck if a woodchuck could chuck wood」(如果一只土拨鼠能扔木头,它能扔多少木头)由土拨鼠扔出的木头拼成

2. 利用现实世界知识进行创作

Nano Banana Pro可利用Gemini 3的现实世界知识和深度推理能力,提供精确、详尽且丰富的图像结果。

比如,制作一个豆蔻茶(Elaichi Chai)的分步信息图表:


3. 翻译并将你的创意本地化

生成本地化文本,或翻译图像内的文本。

在多种语言下,预览产品的外观,为进军国际市场做好准备,并创建适用于不同地区的海报和信息图表。


提示词:将三个黄色和蓝色易拉罐上的所有英文文本翻译成韩文,同时保持其他所有内容不变

4. 使用工作室级控制进行编辑

利用丰富的控制选项,可以直接调整灯光和相机设置,如角度、焦点、色彩分级等,进而实现专业级的效果。

比如,应用照明和焦点控制将场景从白天转换为夜晚:


提示词:将此场景变为夜间

自然,也可以反过来:将此场景从夜晚变为白天:


或者,通过调整景深或焦点(例如,聚焦于花朵)来突出构图的细节:


提示词:聚焦于花朵

5. 精确调整尺寸

尝试不同的纵横比,并在各种产品中生成1K、2K或4K分辨率的清晰视觉效果。


提示词:通过减少背景将纵横比更改为1:1。角色保持在当前位置

6. 混合图像并保持多角色一致性

即便多个角色出现在同一画面中,也能保持其特征的一致性和相似度。

提取多达6到14张(输入数量因平台而异)完全不相关的图像,并将它们融合以创造全新的作品。


提示词:将这些图像组合成一张16:9格式的适当排列的电影感图像,并将人体模型上的裙子更改为图像中的裙子

7. 创建并保持你的品牌外观与调性

渲染并应用具有一致品牌风格的设计,轻松将概念可视化。

将图案、Logo和艺术作品无缝贴合在3D物体和表面上——从服装到包装——同时保留自然的光照和纹理效果。


提示词1:

创建一个图形风格的流畅Logo,这是一种充满活力且趣味盎然的文字插图形式,深深植根于20世纪60年代和70年代的复古美学,大致基于草图进行创作。其标志性特征是一种时髦的、受迷幻艺术启发的字体,具有柔和、圆润且流畅的字母形态。不要完全照搬草图,而是从中汲取灵感。字母被巧妙地扭曲、拉伸和压缩,摒弃僵硬的结构,相互融合形成一个连贯、可识别的形状。

这种被称为图形文字(Calligram)的技法巧妙地融合了文本与图像,单词的形态在视觉上体现了其含义。单词「WAVE」被艺术地排列成波浪的流线型轮廓。该设计是一个巧妙的视觉双关语,使信息瞬间可被理解且令人难忘。

配色方案强化了复古感,采用简单的双色调方案,以温暖、通常柔和或大地色调的浅蓝色为背景,搭配深蓝色的Logo。这种选择增强了作品的怀旧魅力。整体效果呈现出一种异想天开的怀旧感和巧妙的平面设计风格。这是一种大胆而平易近人的风格,通过形状和单词的无缝结合传达简单、积极的信息,产生直接而令人愉悦的视觉冲击。

提示词2:

现在逐个创建视觉识别系统,使用10个高质量样品,包含各种相关产品、广告、广告牌、公交车站牌等。一次生成一个,每个均为16:9比例。

使用和局限性

想要体验Nano Banana Pro,只需在Gemini应用程序中选择「使用Thinking模型创建图像」即可。

免费用户的赠送额度用完之后,将恢复到原始的Nano Banana模型;而氪金的Google AI Plus、Pro和Ultra会员,则会有更高的Pro额度。

对于专业人士,谷歌将会陆续上线到所有的平台,包括Google Ads,Google Slides,Google Vids,Gemini API,Google AI Studio,Google Antigravity,Vertex AI,Gemini Enterprise,Flow等。


不过,虽然Nano Banana Pro已经很强了,但它在一些领域仍有待改进:

视觉与文本保真度在渲染小字号文本、精细细节以及生成准确拼写方面,效果可能尚不完美

数据与事实准确性请务必核实图表、信息图等基于数据的视觉内容的事实准确性

翻译与本地化多语言文本生成可能会出现语法错误,或未能精准捕捉特定的文化差异。

复杂编辑与图像融合图像融合或光照调整等高级编辑任务,有时可能会产生不自然的伪影

角色特征虽然通常表现可靠,但在多次编辑过程中,角色特征的一致性可能会出现波动

值得一提的是,在SynthID数字水印技术的加持下,我们可以将图像上传到Gemini应用中,直接询问它是否由Google AI生成。


最后的最后,还是想要吐槽一下,一周内AI大事件四连更,真是有点心力交瘁了...


参考资料:

https://blog.google/technology/developers/gemini-3-pro-image-developers/

https://blog.google/products/gemini/prompting-tips-nano-banana-pro/

https://blog.google/technology/ai/nano-banana-pro/

https://x.com/Gorden_Sun/status/1991441658941173902?s=20

https://x.com/0xbisc/status/1991471506099171363?s=20

https://x.com/CaomuQ625/status/1990831026239943060?s=20

https://x.com/Peanut_zhc/status/1991524507098791986?s=20

https://x.com/frxiaobei/status/1991474928596709747?s=20

https://x.com/0xPlato/status/1991511443641094418?s=20

https://x.com/dylandddeng/status/1991507274813096153?s=20

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新