当前位置：首页 » 资讯 » 新科技 » 正文

跑分第一，实战拉胯！GPT Image 1.5被骂惨，奥特曼这波悬了

IP属地中国·北京 新智元 时间：2025-12-17 10:15:53

新智元报道
编辑：编辑部
OpenAI深夜祭出大招，全新GPT Image 1.5重磅出世，拿下榜单双料第一，实力碾压谷歌Nano Banana Pro。但全网实测，骂声一片。
谷歌刚传出要发Gemini 3.0 Flash，结果OpenAI反手就是一个「王炸」。

就在刚刚，OpenAI抛出了它的「圣诞彩蛋」——新一代旗舰图像模型ChatGPT Images正式登场。
这一次，OpenAI将生图能力直接拉满：
精准操控：指令理解力大幅提升，真正做到「指哪改哪」。
细节狂魔：画面细节保留完整，质感细腻。
极速生成：速度较前代提升了整整4倍。
而且从今天起，所有ChatGPT免费用户即可上手，开发者也可直接调用GPT Image 1.5 API。

在LMArena竞技场上，它似乎不可战胜：
文生图：以1264 Elo分登顶榜首，力压谷歌Nano Banana Pro（NBP）。
图像编辑：chatgpt-image-latest以3分优势险胜NBP夺冠，而GPT Image 1.5紧随其后位列第4。
在Artificial Analysis上，更是拿下了「双料第一」。

左右滑动查看
然而，反转来得太快。
网友实测后发现，这似乎又是一个「高分低能」的典型。
在Yuchen Jin的对比中，GPT的生图能力基本上能达到谷歌NBP的水平，但智商却惨遭碾压。
尤其是在处理手写体笔记时，GPT Image 1.5的生成看着像模像样，但是完全没做对。

左：ChatGPT Images；右：Nano Banana Pro

左：ChatGPT Images；右：Nano Banana Pro
这一落差引发了社区的激烈吐槽。
有人直言不讳：「谷歌Nano Banana Pro依然是王者。」
更有人痛批：「这可能是OpenAI又一次令人尴尬、且毫无意义的发布。」

先是GPT-5.2引全网差评，又是GPT Image 1.5真实首测不敌谷歌「香蕉」。
看来，OpenAI年底这场硬仗，彻底败给了谷歌......
GPT Image 1.5登场
史诗级进化
言归正传。
根据官方博客介绍，现在让ChatGPT修图，明显比之前更听话了——
哪怕是细枝末节，只改让改的地方，同时确保光线、构图和人物样貌等元素在输入、输出和后续编辑中保持一致。

OpenAI华人研究员陈博远一张图，验证了GPT Image代号「榛子」出炉了
这样一来，即可得到真正符合意图的结果。
不论是有用的照片编辑，服装发型试穿试戴，还是保留原图精髓的风格滤镜和概念转换，ChatGPT皆可搞定。
这一波更新，让ChatGPT成为随身携带的创意工作室：既能踏实干活儿，又能放飞玩创意。
这不，圣诞奥特曼来了......

指哪改哪，多轮P图
GPT Image 1.5擅长各种「手术」，包括添加、删减、组合、融合和置换。
因此，在想要改变图片的同时，它还能不丢失图片原本的「味道」。
两人一狗，GPT Image 1.5精准捕捉了生日会上，他们被迫「营业」的无聊感。

prompt：做一张00年代胶片感的照片，把这俩男的和狗都合成进去，拍他们在小孩生日会上那种一脸无聊的样子。

然后，基于这张图基底，就可以让ChatGPT「连环编辑」了，比如背景加一堆熊孩子。

prompt：背景加一堆熊孩子，乱扔东西乱叫唤的那种，搞乱一点。
接着，把左边男子变成动漫脸，小狗改成毛绒公仔，AI精准完成编辑。

prompt：左边那男的改成手绘复古日漫风，狗改成毛绒公仔，右边那男的和背景都别动。
再让他们全部穿上OpenAI定制衣服，全部拿捏。（PS：Mark Chen处理脖子有些怪怪的）

prompt：给他们全套上OpenAI的毛衣，就长这样的。
更绝的是，ChatGPT还能一键切背景，生日party瞬间变成OpenAI直播间。

prompt：现在把那俩男的去掉，只留那条狗，然后把它放到一个OpenAI直播画面里，就跟附图长得差不多的那种

再以滑板运动为例，让ChatGPT生成一张洛杉矶风景滑板拍摄，90年代末纪实街头摄影风格。

prompt：洛杉矶风景滑板拍摄，采用以下风格：90年代末纪实街头摄影，35mm彩色胶片拍摄，徕卡M风格旁轴相机配35mm镜头，柯达Portra 400色彩面板，自然日光，柔和对比度，柔和逼真的色彩，嵌入式胶片颗粒，轻微的边缘柔化，观察性抓拍构图，无HDR，无现代数码锐化，无电影照明。
就着这张图，让滑板男子衣服变成「红色」，瞬间完成。

prompt：把滑板那人的衣服改成红的，帽子改成黄的。限速牌写15，那个卡车得是辆消防车。
还不够热闹，左边来一帮群众，右边来只老鹰，空中再加个飞艇，要啥有啥。

prompt：左边加一帮围观群众，右边马路上蹲只老鹰，远处空中再飞个飞艇。
接下来，把这一画面直接打板印在T恤上，ChatGPT直出图片。

prompt：弄一件挂在晾衣绳上的T恤，把刚才上面说的那个完整画面整个印在T恤上，要全包的那种印花。
最后，还能让ChatGPT把这件T恤，给滑板男子穿上。

prompt：能不能把刚才晾衣绳上挂的那件T恤，直接给滑板那哥们穿上？
从以上两个demo中，不难看出GPT Image 1.5加持下，ChatGPT精准编辑图片的能力——
可以做到指哪改哪，同时多轮编辑后，还能保持一致性。
创造力爆表，拿捏细节
编辑是基础，GPT Image 1.5创造力在「大变身」时，尤为耀眼。
它可以通过改变和添加元素——比如文字和排版——让想法落地，同时保留重要细节。
这些转换既适用于简单的概念，也搞得定复杂的脑洞。而且在新的ChatGPT Images功能中，不用提示词，使用预设的风格和创意直接上手。
比如，上传一张两人合影图，让ChatGPT电影式风格的海报。

prompt：拿这两个人的照片做一张老派好莱坞黄金时代风格的电影海报，片名叫《codex》。戏服随意改，符合那个年代就行。演员名字改成Wojciech Zaremba（左）和Greg Brockman（右）。导演Sam Altman，制片Fidji Simo。制片方写：A Feel the AGI Pictures Production。
可以看到，生成后的创意图片气场一下子就来了。而且指令中文字细节，也完美在图片中还原。

再让奥特曼变成80年代健身教练，头发蓬松，头戴发带，手戴护腕。

prompt：把我变成那种标志性的80年代VHS录像带风格的健身教练，保留我原本的面部结构和表情。脸部要直接应用正宗的80年代照片和视频特效：柔和的光晕、轻微的模糊、一点点噪点、轻微的色彩溢出，还有那种能影响肤色和边缘细节的淡淡扫描线。造型要穿那种活力四射的80年代健身装，毛巾布发带、护腕，还有带霓虹配色的运动服。头发要做成80年代那种蓬松造型，顺着原本的长度和发质来。妆容如果是那种亮色系的复古妆，跟整体造型搭的话也可以加。整体光线用柔和的粉彩摄影棚布光，加上轻微画质受损的VHS美学，让脸和身体都呈现出那种模拟信号的氛围。画面要是我正在带大家做有氧运动的状态。屏幕上再配点相应的文字。
不得不说，ChatGPT捕捉到了上世纪80年代那种精髓。

就连「glam doll」风格的生成，ChatGPT也能一键拿捏。

prompt：做一个超风格化的3D漂浮人头，要把主角做成那种娇蛮、迷人、一脸不爽和无感的版本：半眯着眼、挑眉、嘴角轻微上扬，透着经典的「刻薄辣妹」范儿。皮肤要是光滑的亮胶质感，颧骨和鼻头打上强高光，捕捉柔和的影棚光。眼影要全息偏光的，从紫到青渐变，带清晰的反光点。头发要浓密、顺滑、油亮，做成雕塑感的大波浪或者利落的盘发，像抛光亚克力一样反光。加个金属铬的小鼻环（钉或环），带点拉丝金属反光。人头要悬浮在纯白中性背景上，倾斜15度，就像高级产品渲染图那样。用明亮漫射的影棚光，不要硬阴影，强调光泽感、塑胶感和次表面散射，做出来的深度要逼真。情绪要娇蛮、时髦、冷酷抽离。机位要特写肖像，正视镜头，85mm焦段。材质要那种超平滑、高光泽、卡通风格的塑料感皮肤、嘴唇和头发。
奥特曼一瞬间就有了「刻薄辣妹」范儿～

更有趣的是，还可以把人物（奥特曼）变成一个有用的挂饰。

prompt：把我变成一个光面模压玻璃雕刻成的挂饰，表面是高光漆面，从各个角度都能反光。触感要极其光滑冰凉，分量感要既显易碎又显永恒。涂层要是那种有光泽的珐琅质感，介于陶瓷和糖衣外壳之间——反光度要高，让微小的高光在曲面上像柔和火花一样绽放。用细小的金属装饰勾勒轮廓和纹理——点、线和金银丝图案，动起来会闪烁。这些要用精细的亮粉漆或微珠来做，营造出手工装饰的感觉；闪光要有层次感，不是平的，让光线仿佛在凸起的细节上跳跃。整件作品要散发出一种复古的媚俗奢华感：鲜艳的色块撞色闪亮的点缀，既俏皮又刻意。曲线受光处要有微妙的彩虹光泽——透着金、玫瑰色和珍珠色。表面质感要看起来像是能吃的，像上釉的糖或者倒入模具的融化糖果。用精致的金环和细绳悬挂着，这挂饰要带着一种温和的戏剧感悬停，既喜庆又具雕塑感。这得是那种既标志性又幽默的物件，一件在圣诞树灯或影棚灯下闪闪发光的宣言单品——体现坎普风的优雅和手工怀旧感。
还是圣诞老人款的。

再把奥特曼在苹果WWDC一次登台演讲经典粉色衣服拿出来，再让如今的他穿上看看效果。

prompt：用上传的图片做主体参考。把它改成极简主义的 90 年代美国时尚广告。要完全保留主角的面部特征、比例、姿势和表情。完全保留双领Polo衫原本的颜色。风格：干净、低调、高端时尚画报风。穿搭：双层Polo造型（一件Polo叠穿在另一件上），经典剪裁，中性色或稍微柔和的颜色。场景：无缝摄影棚背景纸，构图要简单。布光：柔和均匀的影棚光，带柔和阴影；肤色要自然。情绪：自信、松弛、不过时。品牌写：GPT‑Shirt。摄影风格：中画幅胶片质感，微妙的颗粒感，对比度要克制。
气场这块，还是看本人。

一些女孩子最爱的「芭比换装」，也能在ChatGPT中玩了。

prompt：把他放进一个2000年代的换装小游戏界面里，环境全搞成粉色系。确保这副墨镜也在套装里。
奥特曼的衣橱，很符合他的人设。而且，就连要求中的那副墨镜，也出现在图片中。

ChatGPT还可以把奥特曼变成经典之作——「戴珍珠耳环的少女」。

prompt：把我放进《戴珍珠耳环的少女》那幅画里。
还能让他为饮料广告代言。

prompt：用附件里这个男人的脸，为一个叫「SOTA」（一种新苏打水）的新饮料做一个复古汽水广告。口号写：nothing artificial about it（纯天然，无人工）。风格要忠实还原那个时代。
一轮演示下来，ChatGPT Image创造力这块更具脑洞。比起GPT-4o主打的吉卜力风，新一版图像模型更有创意。
更听人话，6x6网格完美还原
跟初版GPT Image相比，1.5版本听指挥的能力更强了。
这使得更精准的编辑以及更复杂的原创构图成为可能，元素之间的关系也能按照预期保留下来。
直接上地狱级难度——6x6网格，36个元素，GPT Image 1.5 丝滑、准确，一个不差。
prompt：
做一个6列6行的网格图，内容如下：
第1行：希腊字母β、沙滩球、柠檬、机器人、鱼缸、青蛙
第2行：螳螂、名表、浴缸、墨镜、彩色蝴蝶、信封
第3行：邮票、相框、冒热气的饺子、单词miracle、双板滑雪板、字母Z
第4行：马桶、地铁代币、静音图标、香水、蜻蜓、滑板头盔
第5行：蓝牙图标、数字13、绿色的心、魔方、加拿大鹅、士兵头盔
第6行：白狗、救生衣、绳结、键盘、纸巾盒、数字14

左：新版模型；右：旧版模型
文本清晰渲染，直出编程
在文字渲染上，新模型又进了一步，能处理更密集、字号更小的文本。
如下，在一张图上介绍GPT-5.2，ChatGPT的Markdown渲染的能力，恐怖如斯。

prompt：

下面这张卡路里信息图，细节还原度超乎想象。

prompt：

就连复杂的编程界面，ChatGPT都能编译出来。

prompt：

更多提升
在其他维度上，新模型也多有改进，让输出变得更直接可用。
比如，它能画好很多的人脸，而且看起来更自然。
让ChatGPT Image生成一张1970年代的伦敦，新（左）旧（右）两版对比差异明显。
在人脸细节上，1.5版本更强，更逼真。

prompt：做一个1970年代伦敦切尔西的街景，要那种照片级的写实，全焦，纤毫毕现。街上人山人海，还要有一辆公交车，车上有个广告写着「ImageGen 1.5」，再加上OpenAI的标和副标题「Create what you imagine。整体风格要超写实的业余摄影，就像iPhone随手拍出来似的……
再比如，人山人海的「大场面」，新版（下图左）更逼真更自然，旧版（下图右）一眼过时：

prompt：金门大桥跟前，乌泱乌泱好几万人的大场面。人群里头每个人的脸都得看得清清楚楚。
一位潜水员在海底弹钢琴，新版（左）写实更有一种人味儿。

prompt：一个潜水员在水底下弹钢琴，旁边有美人鱼围观。超写实的业余拍摄风格。
让它生成一张带眩光的照片，下面对比图，一眼就能看出右边效果更假。

prompt：做一张图，图里要有一张打印出来的复古老照片。照片上有一年轻亚裔男的和一年轻白人男，俩人在酒吧里都戴着圣诞帽，其中一个手里还拿着酒。那张打印照片上得能看见相机闪光灯留下的反光点。照片还得带个那种可见的细白边儿，并且稍微歪着点放。
百尺竿头，更进一步
为了评估性能，OpenAI重新跑了ChatGPT Image 1.0发布时的许多示例。
在各种案例中，新模型显示出明显的改进，尽管结果仍然不完美。虽然此版本代表了有意义的进步，但在未来的迭代中仍有很大的改进空间。
比如，日漫风展示海洋不同深度的生物剖面图，新（左）细节更多，但风格明显不如旧版（右）的更符合「日漫风」。

prompt：做一张深海生物的海报，要展示不同深度的。搞一个竖着的海洋剖面图，风格就用那种特别精细、好看的日系动漫风。
而黑暗奇幻动漫风，新版（左）也比旧版（右）也出现了明显的理解偏差：

prompt：给我画张像，风格要那种黑暗奇幻动漫里的感觉。
OpenAI坦言：生成某些特定艺术风格的能力，比之前的版本退步了。
对此，解决方案是：试试用「图片」功能里的预设滤镜，应该能帮上忙。另外，上一版的ChatGPT Images现在也做成了一个自定义GPT，也可以直接去用旧版。
另一大局限是新模型还无法可靠PS多人大合影（上），处理之后人脸特征容易走形（下）。

prompt：能不能给他们都穿上印着「OpenAI」字样的T恤，然后让大家都笑得开心点。
人一多，新模型修图就很难精准地维持住每个人的长相特征了。
另一大局限是多语言文字渲染，问题重重——
中文直接拉完了……更别提阿拉伯语和希伯来语等非英语语言了。

prompt：能不能画张图，上面列点用中文点餐的基本常用语。
API：便宜了20%
API中的GPT Image 1.5提供了与ChatGPT Images相同的所有改进。
举例来说，它在品牌标志和关键视觉效果在多次编辑中保持更一致，因此非常适合图形和Logo设计等营销和品牌工作，以及电商团队从单一来源图像生成完整的产品图库（不同变体、场景和角度）。
与GPT Image 1相比，GPT Image 1.5的图像输入和输出价格现在便宜了20%，因此你可以用同样的预算生成和迭代更多图像。

目前，各行各业的企业和初创公司，包括创意工具、电子商务、营销软件等，都已经用上了GPT Image 1.5。

左右滑动查看

奥特曼亲手拉响紧急警报
这次更新，也是对谷歌的强势回击。
就在上个月，因谷歌Gemini抢占市场份额，奥特曼紧急拉响「红色警报」（code red）。
但时，谷歌刚刚发布了新旗舰模型Gemini 3和图像生成工具Nano Banana Pro，后者更是在多个基准测试中登顶LMArena排行榜。
面对谷歌步步紧逼，OpenAI迅速加速节奏：大约5天前，发布了GPT-5.2；现在，又推出升级版图像模型。
OpenAI的这波更新，显然是直面谷歌Nano Banana Pro的挑战——后者在开发者中口碑极佳。
而OpenAI面对的对手，还远不止谷歌。

今年8月，Qwen-Image就已支持中英文可读文字生成；Black Forest Labs也发布了开源图像模型Flux.2，实力不俗。
这场AI图像模型之争，显然已经进入白热化阶段，目标很明确：赢得企业市场。
奥特曼强调了新模型诸多提升和新的编辑功能。

作为OpenAI的应用CEO，Fidji Simo则暗中对标谷歌Nano Banana Pro，直言这次是从单一文本转向动态AI体验。

她认为，通过ChatGPT Images及更多功能，缩短「所思」与「所得」之间的距离。
人类的思维，远不止于文字。事实上，那些最扣人心弦的灵感，往往最初只是脑海中的一幅画面、一段旋律、一个动作或一种模式。如果AI想助我们要释放全部潜能，它就必须用我们习惯的方式——去理解、去表达、去沟通。
Fidji Simo透露，除了图像生成器，OpenAI还在全面升级ChatGPT的视觉体验：
过去几个月里，我一直在谈论 ChatGPT 的进化方向：它正从一个被动的、基于文本的产品，蜕变为一个更直观、更能与你想要完成的任务紧密相连的智能助手。
从纯文本向多模态和动态 UI（用户界面）的转变，正是这一变革的关键一环，能看到这些进展，我倍感兴奋。
Fidji Simo透露，未来用户在搜索问题时，将能看到更多可视化信息和清晰来源。例如换算单位、查比赛比分等场景，图示比文字更直观。
但体验过GPT Image 1.5和Nano Banana Pro的网友，直言这次OpenAI「黔驴技穷」：

一张用青蛙头恶搞奥特曼的梗图，开始流传：

悲伤蛙或佩佩蛙（左），整体上高度模仿OpenAI的预热图（右）——相同的背景，相同的文字，相同的眼神，类似的服饰
这确实有些在内涵奥特曼了。
但最狠的评论，当属网友在OpenAI推文下直接「打脸」：
OpenAI彻底完了。

在相同提示词下，与GPT Image 1.5相比，Nano Banana生成的图像更加逼真自然，在电商创意素材上极为有利。
下图中，上两张为GPT Image 1.5生成，下两张为Nano Banana Pro生成。

提示词：53岁白人德国男性在卧室中，典型的意大利风格卧室，架子上堆着箱子和书籍，背景处有一张书桌，上面摆着 iMac 和散落各处的纸张，身穿灰色连帽衫（带简约 logo），戴着婚戒，手腕上有一条低调的红色手链，直视镜头，自然随拍的用户原创内容风格

不过，也有网友表示，GPT Image 1.5生成的「马斯克和奥特曼圣诞合影」，逼真到完全看不出一丝破绽。

考虑到Gemini 3.0 Flash马上要来了，新的Nano Banana图像生成功能或许速度更快、价格更便宜，不知道OpenAI这次的Image 1.5是不是「徒劳的挣扎」。

可以肯定的是，OpenAI的紧急警报，一时停不下来。
参考资料：HYJ
https://x.com/OpenAI/status/2000990989629161873
https://openai.com/index/new-chatgpt-images-is-here/
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标，锁定新智元极速推送！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

荣耀罗巍谈和ARRI技术合作，称准备电影感塞进可折叠机械臂云台

荣耀首款人形机器人荣耀ROBOT热舞视频发布

宗馥莉砍掉娃哈哈机器人业务；荣耀人形机器人表演后空翻丨邦早报

雷军感谢超跑团队：为如此惊艳的作品点赞

华为发布U6GHz全系列产品，覆盖宏站、小站及微波等

联想Legion Go Fold折叠屏概念掌机亮相MWC 2026

全站最新

荣耀罗巍谈和ARRI技术合作，称准备电影感塞进可折叠机械臂云台

荣耀首款人形机器人荣耀ROBOT热舞视频发布

宗馥莉砍掉娃哈哈机器人业务；荣耀人形机器人表演后空翻丨邦早报

雷军感谢超跑团队：为如此惊艳的作品点赞

热门推荐

新势力2月销量：零跑理想前两名，小米问界跌惨了

从留守宠物到万亿市场：春节如何点燃“它经济”？

外卖大战“失血”，瑞幸仍狂赚了36亿元

一剂猛药！姜云涛能否盘活长春高新？

凝聚各领域标准化共识，人形机器人与具身智能标准化（HEIS）年会在京召开

瑞幸应该尽快摆脱外卖依赖症

三只羊押注「无语哥」，36个月能赌赢吗？

调味品企业跨界，是主动破圈还是被动续命？

if椰子水，被副牌拖了后腿

AI短片进影院，被影迷大骂垃圾，AI真的不配吗？

2026的消费分层：三种人，各过各的

挑战英伟达算力霸权？多伦多一家创企将大模型“刻进”芯片

营收近500亿，利润却缩水：3万店的瑞幸，钱去哪了？

国投白银的“折叠宇宙”：场外小红书维权，场内高溢价博傻

绝不存在“智能危机”