硅基星芒
Sam Altman那个著名的梗,这次应验在所有人身上了。
去年宣传GPT-5的时候,这位OpenAI的CEO说了一句后来被全网玩坏的话:那种感觉,就像看到原子弹爆炸,整个人眩晕瘫坐。此后每逢AI圈发布新品、配上夸张文案,这个梗就被拉出来反复鞭尸。
但前天深夜,眩晕瘫坐的可不是奥特曼。这回成了所有盯着屏幕等OpenAI出牌的用户。
奥特曼照例故作神秘,发了一条推文:我们准备了一些有趣的东西。
到了凌晨三点,GPT-Image 2落地。全球AI界直接炸场。
Images are a language, not decoration.
这是OpenAI写在发布页上的第一句话。翻译过来就一个意思:从今天起,图像不再是装饰品,它本身就是语言。这是对整个计算机视觉行业发出的代际跃迁宣言。
过去一整年,AI绘图还困在画得像不像的审美泥潭里。GPT-Image 2一出现,直接按下了切换键AI生图正式进入逻辑对不对的智力考场。
这款模型的精度,用恐怖来形容不过分。
在Artificial Analysis的文生图和图像编辑排行榜上双双登顶,实战表现更是碾压级的。
那种感觉,就像视频生成领域Seedance 2.0降临时一样,它早就不当人类的辅助工具了,它在定义新的行业标准。
注:本文的图片全部由GPT-Image 2生成,图片内容纯属虚构。
01思维引擎的觉醒
过去,人们评判一个图像模型好不好,第一标准是像不像真人、像不像参照物。
在GPT-Image 2这个怪物面前,这套标准过时了。彻底过时。
新模型最核心的突破点在这儿:它是一个支持思考模式的图像模型。
什么意思?用户输入提示词之后,模型不再简单去噪、拼接像素。它先在后台完成一次思维建模,再动笔。
社区流出的一张实测图最能说明问题。模型模拟了雷军直播跑步的画面:
图源: + 地理常识 + UI规范的三重统一,意味着什么?
结论很直接:在生成第一个像素之前,GPT-Image 2已经完成了一轮推理。它理解了里程的含义,理解了加减法的逻辑关系,也理解了高海拔地区的视觉特征。
这哪里是画画。这是思考。
从玩具到生产力
在这种能力面前,所有人对图像模型的态度,该变一变了。
它早就不是你拿来画头像、做壁纸的玩具了。一脚迈过可用门槛,直接冲进好用区间一个能扔进商业场景直接干活的工具。
拿海报设计来说。GPT-Image 2的构图审美、光影处理、对品牌调性的拿捏,毫无疑问达到了绝大多数普通人类设计师难以企及的高度。
图源: 2,即使效果不满意调整几十次,成本也不过是几美元的级别。
在海报设计、营销素材、插画配图这些领域,用户在乎的根本不是真不真,在乎的是好不好看、准不准。正因如此,AI的替代效率是毁灭性的。
在同步更新的开发者文档中,还隐藏着一个令人兴奋的细节:示例代码中频繁出现了model:gpt-5.4。
思考模式加上旗舰模型,这个组合暗示了一件事:GPT-Image 2绝非孤立产品。它是为下一代大语言模型而生的视觉终端。
通过新的Responses API,生图过程会像和大语言模型聊天一般自然地交互。模型新增了允许多轮对话修改的功能,首次生图结束后,用户可以提出各种让乙方头疼的指令进行修改。
通过新的Responses API,生图过程会像和大语言模型聊天一样自然交互。模型新增了多轮对话修改功能,第一版生成后,用户可以提出各种让乙方设计师血压飙升的指令:背景再暗一点。Logo往旁边挪几个像素。
这些交互式实时修改需求,恰恰是设计师日常工作中最繁琐、最消耗耐心的部分。现在,迎刃而解。
中文渲染的巅峰
GPT-Image 2虽然是国外的模型,国内用户却一边倒地叫好。
原因只有一个:它对汉字的支持,堪称完美。
在社区的实测返图中,你能看到罗永浩和王自如的名场面辩论:
图源: src="https://img. width="941" />
图源: src="https://img. width="524" />
图源: 2的强大得以更加淋漓尽致地体现。
在对比测试中,前代模型1.5版本虽然能画出像菜谱的东西,但仔细一看,文字几乎全是乱码。
图源: 2生成的相同菜谱,却让人看到了文字清晰度和审美已经有了里程碑式的突破。
图源: 2,也并没有真正理解文字的规律。它只是死记硬背了文字在像素层面上的长相。
一张与奥特曼谈生意的图暴露了这一点:两箱饮料包装上大大的蒙牛和王老吉写得极其完美,底下的小字却依然是模糊的色块。
图源: 2也有它笨拙的一面。
实测中发现,由于思考模式会调用联网搜索并进行逻辑推演,在处理极其复杂的虚构任务时,模型偶尔会陷入逻辑怪圈思考了接近40分钟,仍然无法作答。
与此同时,API宣称的支持2K甚至4K分辨率,意味着极高的token消耗和延迟。
对于普通用户来说,如何在极致画质和响应速度之间取得平衡,是未来使用中的必修课。
在技术领域,强大的能力永远是一把双刃剑。
无论是图像模型还是视频模型,都不可避免地要面对深度伪造的伦理挑战。
目前的大部分实测案例中,AI生成的都是知名人物,但若是将他们换成各种社交媒体上发布过照片的普通人,在不认识本人的情况下已经极难分辨出真假。
除了背景中偶尔出现的乱码可能会让AI露馅,人体本身已经没有任何破绽。
因此,那些曾经必须由真人完成的领域,正在面临着前所未有的信任危机。
GPT-Image 2的发布,让生图模型从玩具走向了生产力工具。
过去人们用AI提供灵感,而如今的AI开始尝试接管从构思、计算、排版到成品的全流程。
对于设计从业者来说,这是一个充满FOMO的时代。
但对于那些善于利用工具、具备产品审美和逻辑思维的人来说,这又是一个最好的时代。
图像开始学会思考,文字不再是像素的杂音。
人们距离那个所思即所得的视觉奇点,可能真的只有一步之遥了。




京公网安备 11011402013531号