当前位置: 首页 » 资讯 » 新科技 » 正文

谷歌搞了一个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤

IP属地 中国·北京 编辑:沈瑾瑜 机器之心Pro 时间:2025-08-26 16:26:53



机器之心报道

编辑:杨文

神秘AI模型纳米香蕉火了,冒出了一批假网站,李鬼和李逵傻傻分不清。

近日,AI社区又冒出了一个神秘的图像生成和编辑模型,名叫纳米香蕉。

它在 LMArena 平台的“Battle”模式中被发现,但未在公开排行榜上列出,也没有官方开发者明确声明其所有权。

很多网友都追踪着蛛丝马迹,猜测这可能是谷歌的研究模型

周二,谷歌 AI Studio 产品负责人 Logan Kilpatrick 在 X 上发布了一个香蕉表情符号。



谷歌 DeepMind 产品经理 Naina Raisinghani 也发布了一张与意大利艺术家 Maurizio Cattelan 2019 年创作的胶带粘贴香蕉艺术作品类似的图片。



再加上谷歌过去曾将其较小的模型称为“Nano”,以及其生成的图像与Google的Imagen或Gemini系列相似。



以上种种,似乎都在暗示它出自谷歌之手。

该模型不仅在文本编辑、风格融合和场景理解等方面表现更优,还可以上传两张图片、输入提示词将其中的元素融合。

例如,上传一摞书和卧室床头柜的图片,输入提示词“将一摞书翻到直立并放在两个书挡之间的桌子上。”

它能准确理解复杂的文本提示,将横放的三本书立起来,并加上书挡货架到柜子上。



上传一张模特照再加上一张套装帽子图,输入提示词:“把棒球帽戴在女人身上。”

棒球帽上有复杂的文字和图案,纳米香蕉编辑后的图片保留了帽子上的所有细节,同时光线、视角和构图也能保持一致。



在产品照片、场景搭建图、广告等商业场景下,Nano-Banana的表现也稳定得不错。



当然,它也不是完美无缺的,在某些情况下,Nano-Banana生成的图像可能会出现机器人、提示逻辑或瞄准位置不一致等视觉问题,人物的手指也偶尔会出现变形的情况。

如果细看上生成的书籍,就能发现其中的瑕疵:书名出现了「鬼画符」。



由于尚无官方API或正式的官网链接,我们只能通过LMArena随机体验该模型。

很快,每次都得靠运气才能遇到 Nano Banana,体验很惊喜。

更搞笑的是,网上出现了多个假网站,声称提供 Nano Banana 服务,让网友李鬼和李逵傻傻分不清。

纳米香蕉一手评测

我们也来了一个手测评。

lmarena官网,选择战斗模式,可以直接输入提示词进行文生图,也可以上传图片、输入提示词再进行AI编辑。

官网链接:https://lmarena.ai/

页面会出现两个匿名模型同时生成图片,只有当我们选出生成质量最好的一张图片时,平台才会亮出对战双方的身份。



先来试试文生图效果。

我们输入同样的提示词:以宝丽来照片拍摄风格呈现一幅肖像风格图像。照片中,一位化妆师留着长长的卷发,身着宽松的服装。她面容精致,散发着随意的气息,对着镜头比出和平手势,营造出一种极致自由的氛围。图像略带颗粒感,色彩鲜艳迷人,1:1比例。

第一幅是 Nano Banana 的「作品」,第二幅是 ChatGPT 生成的效果。先前生成的图片背景有杂乱的眼影盘、指甲油等,更符合提示词中的「化妆师」身份,而且人物的动作、服装更自然,手部也没有细节明显的瑕疵;而背部背景同样单一,大拇指也有些虚化。





再来试试它的图片编辑功能。

上传一张旧金山阿拉莫广场的野餐照片,输入提示词:在公园里添加一些人形机器人,使它们与环境融为一体。

乍一看我们还以为纳米香蕉「跳舞」了,直到在画面右侧找到了一个正在行走的类人机器人,它完全适应了环境,毫无违和感。





我们上传一张人物摄影照片,让 Nano Banana 进行逆向工程绘画其创作过程。

提示词:展示之前设置的场景,模特坐着滚动她的手机,模特身后有一个女人在整理她的头发,一个男人站在梯子上,在背景中挂上窗帘,露出后面的工作室。





有网友用Nano Banana让碧梨和迈克尔·杰克逊跨时空自拍:



我们也尝试了下。上传马斯克和奥特曼的照片,输入提示词:两个人正在开心地自拍。

Nano Banana确实生成了一张自拍照,马斯克的形象、动作也几乎找不出什么问题,只是奥特曼大变样。



为了不「冤枉」它,我们又给了它一次机会,纳米香蕉还是翻车。



入口继续升级。上传小扎、面具肖像照和一张风景照,让 Nano Banana 把两个人自然地放在图三中。

Gemini 2.0 flash生成的效果完全认不出这两个大佬,而Nano Banana将二人完美巴基斯坦图三环境中,不过手指等细节方面还是有瑕疵。



进阶玩法

如果把 Nano-Banana 和谷歌的 Veo3 结合在一起,会碰撞出怎样的火花?

@a16z 合伙人 Justine Moore 就搞了一个新工作流,用于制作简短的视频。

该视频下方是一个游戏或电影中的潜行任务场景,角色从昏暗的博物馆中盗取了一幅名画,引发了激光警报。



她还放出了制作教程。取出第一个视频片段的最后一帧,然后将帧上传到 lmarena 上的 Nano Banana,提示生成下一个场景,例如「角色转向走廊」,然后将新生成的帧用 Veo 3 进行动画制作。



X网友@ZHO_ZHO_ZHO则发现了Nano-Banana另一种好玩的玩法——把插画变成手办。

上传一张图片,输入提示词:将这张照片转换成人物模型。在它后面放置一个印有人物图像的盒子,以及一台显示 Blender 建模过程的电脑。在盒子前面,放置一个圆形塑料底座,人物模型站在上面。尽量使用透明的 PVC 材质,并尽可能将场景设置在室内。



根据该博主评测,Nano-Banana生成的图几乎没有AI味道,五官和细节都保留得很好,真实感。

然后再用Veo3将其制作为8秒视频。 提示词:用双手拿起图形并从各个角度展示。



底下评论区踊跃网友也按照上述工作流程整活。比如哪吒道德抱拳的:



还有哆啦A梦的,正面看哆啦A梦的尾巴挺正常,但转个身就大变样:



我们也复刻了下,上传一张Q版插画图片,输入以上提示词。



效果如下:



最后打开Gemini 2.5 Pro,选择视频,上传生成的图片,输入提示词,静待1分钟左右,就能获得一段8秒视频。



上周末,谷歌Veo 3对所有Gemini用户免费开放,供其体验AI视频生成功能。

这个免费体验活动仅持续到太平洋时间8月24日晚上10点(北京时间8月25日上午1点)。在此期间,免费用户每天最多生成3个8秒的视频片段,每个视频都包含自动生成的音频。

通常,Veo 3 的视频生成功能仅对 Google AI Pro 或 Ultra 订阅用户开放。Pro 用户每天可生成 3 个视频,而 Ultra 用户的损耗为 10 个视频。

感兴趣的朋友也去体验一波吧。

https://x.com/ginacostag_/status/1959234207127134340

https://x.com/venturetwins/status/1957155767888548160

https://x.com/techhalla/status/1959186906115354692

https://x.com/ZHO_ZHO_ZHO/status/1958550998815023573

文中视频链接:https://mp.weixin.qq.com/s/ClnR2h_YGXtWNrpJ3TOilA

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。