当前位置: 首页 » 资讯 » 新科技 » 正文

谷歌的一根“香蕉”火了!“用嘴P图”效果炸裂,国产同款能打吗?

IP属地 中国·北京 编辑:苏婉清 文汇报 时间:2025-09-06 14:15:26


这几天,又一个现象级人工智能(AI)工具登场了——代号为“纳米香蕉”(Nano Banana)的图像模型,凭借实测中的惊艳效果迅速蹿红。

社交媒体上,科技粉、设计师、内容创作者都在疯狂刷屏,连接不断发表各自的使用心得、实用教程、玩法合集,众多网友尝鲜后更直接封其为“掌管P图的神”“AI生图新王”“上手最强图像模型”……

这根出圈的“香蕉”其实就是谷歌推出的新一代AI图像生成与编辑模型Gemini 2.5 Flash Image,不仅能融合多张图片拼接出全新画面,还能理解地理、建筑与物理结构,将二维地图转化为三维景观。谷歌方面透露,“纳米香蕉”上线一周内,已累计完成超2亿次图像编辑。

这根“香蕉”究竟有多好玩

记者发现,网友用起“纳米香蕉”来都是脑洞大开,各种玩法层出不穷。有的喜欢毫无违和感的跨时空合影,有的乐于给自己换各种发型,也有的用地图生成三维景观……当然,最高频的还是用照片定制手办模型,无论是真人、二次元角色,还是小宠物,主打一个“万物皆可手办”,大批网友玩得不亦乐乎。


AI生成手办

蔡小姐是个AI狂热粉,大模型一有风吹草动,她都会第一时间上手实测。连续玩了几天“纳米香蕉”后,她感到最兴奋的有两点:一是可以“用嘴P图”,不需要很复杂的提示词,直接和AI对话,它就能出色地完成P图任务。“比如,我给了它一张背景是冬天的人像照片,人的表情本来很忧郁。我告诉AI,让照片中的人笑一笑,很快它就生成了一张阳光灿烂的笑脸人像,而且画面非常自然,感觉AI模型读懂照片的能力提升了不少。”二是很多网友“疯狂打Call”的照片生成手办功能。蔡小姐尝试把一张自己穿着拉丁舞服的照片上传后,分分钟就生成手办模型图,整条裙子上各种复杂的细节还原得很逼真,三维效果也非常出色,让她立马就想拥有这款手办。

出圈背后藏着哪些AI能力

很多人都好奇的是,这根火出圈的“香蕉”里到底藏着哪些AI能力的提升?

如果说去年一夜刷屏的文生视频模型Sora是用人类已有的“零件”拼装出一辆汽车,那么,“纳米香蕉”就是让它变成一辆性能炸裂的超级跑车。“纳米香蕉”拥有断档领先的图像一致性。提供一张人物照片,让它生成8种表情,或者变化角度、背景,甚至转成三维图像,人物都不会变形。在连续20次编辑操作中,字符一致性准确率保持在95%以上。

在上海人工智能研究院技术总监方帅看来,“纳米香蕉”超多惊艳表现,都来自于理解能力的提升。谷歌团队在介绍自己的产品时,也提到当模型在图像理解能力上变得更强时,其中一部分能力可以迁移到图像生成上来。

“纳米香蕉”利用谷歌Gemini大模型的知识储备来生成和编辑图像。一年前的Sora被人诟病最多的就是在对物理规则的理解上。比如,在老奶奶吹蜡烛的视频中,蜡烛并没有随风熄灭;在玻璃杯从空中坠落的视频中,玻璃还没有碎,里面的水已流出来了。但在“纳米香蕉”中输入气球飘向仙人掌的图像,并要求它预测下一幅画面,它会显示气球炸裂,而仙人掌完好无损。


“纳米香蕉”理解物理世界规则,知道气球碰到仙人掌会炸裂。

更为重要的是,“纳米香蕉”的交互模式高度符合人们想象中AI应用该有的样子,它能够精确解析自然语言指令中的编辑需求,支持超过100种语言的提示词,识别准确率达到92%。比如,输入一张人物图像,说“给他戴上帽子”,模型就会输出一张戴帽子的人物照。还有一个爆火的“火柴人”玩法,输入若干张照片后,用火柴人画出动作,模型就能生成逻辑自洽的动作图,如一人踢腿进攻,一人蹲下防守。

还会有什么颠覆式AI应用

现象级应用总能引发人们对AI未来的更多想象,而由此带来的改变正悄然加速。

在小红书上,已有网友将自己的创意脑洞转化成娃衣、饰品、手机壳、明信片等实体商品,通过软件自带的店铺完成销售闭环。这一以往只有设计师才能完成的工作,现在任何普通人都能参与,以成本15元、售价68元的艺术插画手机壳为例,月销100件即可创造不菲利润。AI也带来生产和销售模式的变化,设计师们往往会先输出海量的图片,用流量判断哪个受欢迎,再生产实体产品。


用语音让Step1X-Edit模型将改变女孩外貌。小红书AI大法师视频截图

“‘纳米香蕉’图片转手办的玩法非常有意思,但单靠它,目前还不能真正拿来做手办。”二次元手办企业APEX-toy创始人马力告诉记者,主要原因是手办有很多细节,当下二次元手办的平均配件数量在150个左右,有的甚至超过300个,AI还无法精细还原,“不过潮玩设计可能会用得上”。

事实上,中国“AI天团”在图像生成和编辑领域的布局步伐并不慢。阶跃星辰副总裁李璟表示,早在今年5月,阶跃星辰的开源图像编辑大模型Step1X-Edit已具备“纳米香蕉”的同类能力,在语义精准解析、身份一致性保持、高精度区域级控制上表现惊艳,“实际演示中,我们看到只需要对话就可以任意修改图片中的元素,比如改发型、改衣服颜色,将盒子里的粽子改成月饼,甚至让人物变老30岁,都不在话下”。


Step1X-Edit用语音让大模型将盒子中的月饼换成包子。 小红书AI大法师视频截图

李璟还透露,Step1X-Edit与“纳米香蕉”技术路线的追求不谋而合。但针对视频、图像类的交互产品,其背后的多模态大模型还将有大量的技术迭代。接下来的应用核心是智能终端智能体,如用于汽车、手机以及电脑桌面的工作助手智能体。阶跃星辰正全力寻求“理解生成一体化”的架构式突破,或将带来更颠覆式的AI应用。

先做产品还是先做架构,目前还没有答案,唯一肯定的是,每个人都看到了机会,竞争变得异常激烈。“纳米香蕉”团队坦言:其目标不仅是提升视觉质量,更要追求聪明和事实准确性;希望打造一个能理解用户深层意图的AI,甚至比人做得更好。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新