当前位置: 首页 » 资讯 » 新科技 » 正文

这一次,OpenAI干掉了90%人类设计师

IP属地 中国·北京 编辑:刘敏 硅基星芒 时间:2026-04-28 02:02:35
人们距离那个所思即所得的视觉奇点,可能真的只有一步之遥了

硅基星芒

Sam Altman那个著名的梗,这次应验在所有人身上了。

去年宣传GPT-5的时候,这位OpenAI的CEO说了一句后来被全网玩坏的话:那种感觉,就像看到原子弹爆炸,整个人眩晕瘫坐。此后每逢AI圈发布新品、配上夸张文案,这个梗就被拉出来反复鞭尸。

但前天深夜,眩晕瘫坐的可不是奥特曼。这回成了所有盯着屏幕等OpenAI出牌的用户。

奥特曼照例故作神秘,发了一条推文:我们准备了一些有趣的东西。

到了凌晨三点,GPT-Image 2落地。全球AI界直接炸场。

Images are a language, not decoration.

这是OpenAI写在发布页上的第一句话。翻译过来就一个意思:从今天起,图像不再是装饰品,它本身就是语言。这是对整个计算机视觉行业发出的代际跃迁宣言。

过去一整年,AI绘图还困在画得像不像的审美泥潭里。GPT-Image 2一出现,直接按下了切换键AI生图正式进入逻辑对不对的智力考场。

这款模型的精度,用恐怖来形容不过分。

在Artificial Analysis的文生图和图像编辑排行榜上双双登顶,实战表现更是碾压级的。

那种感觉,就像视频生成领域Seedance 2.0降临时一样,它早就不当人类的辅助工具了,它在定义新的行业标准。

注:本文的图片全部由GPT-Image 2生成,图片内容纯属虚构。

01思维引擎的觉醒

过去,人们评判一个图像模型好不好,第一标准是像不像真人、像不像参照物。

在GPT-Image 2这个怪物面前,这套标准过时了。彻底过时。

新模型最核心的突破点在这儿:它是一个支持思考模式的图像模型。

什么意思?用户输入提示词之后,模型不再简单去噪、拼接像素。它先在后台完成一次思维建模,再动笔。

社区流出的一张实测图最能说明问题。模型模拟了雷军直播跑步的画面:

图源: + 地理常识 + UI规范的三重统一,意味着什么?

结论很直接:在生成第一个像素之前,GPT-Image 2已经完成了一轮推理。它理解了里程的含义,理解了加减法的逻辑关系,也理解了高海拔地区的视觉特征。

这哪里是画画。这是思考。

从玩具到生产力

在这种能力面前,所有人对图像模型的态度,该变一变了。

它早就不是你拿来画头像、做壁纸的玩具了。一脚迈过可用门槛,直接冲进好用区间一个能扔进商业场景直接干活的工具。

拿海报设计来说。GPT-Image 2的构图审美、光影处理、对品牌调性的拿捏,毫无疑问达到了绝大多数普通人类设计师难以企及的高度。

图源: 2,即使效果不满意调整几十次,成本也不过是几美元的级别。

在海报设计、营销素材、插画配图这些领域,用户在乎的根本不是真不真,在乎的是好不好看、准不准。正因如此,AI的替代效率是毁灭性的。

在同步更新的开发者文档中,还隐藏着一个令人兴奋的细节:示例代码中频繁出现了model:gpt-5.4。

思考模式加上旗舰模型,这个组合暗示了一件事:GPT-Image 2绝非孤立产品。它是为下一代大语言模型而生的视觉终端。

通过新的Responses API,生图过程会像和大语言模型聊天一般自然地交互。模型新增了允许多轮对话修改的功能,首次生图结束后,用户可以提出各种让乙方头疼的指令进行修改。

通过新的Responses API,生图过程会像和大语言模型聊天一样自然交互。模型新增了多轮对话修改功能,第一版生成后,用户可以提出各种让乙方设计师血压飙升的指令:背景再暗一点。Logo往旁边挪几个像素。

这些交互式实时修改需求,恰恰是设计师日常工作中最繁琐、最消耗耐心的部分。现在,迎刃而解。

中文渲染的巅峰

GPT-Image 2虽然是国外的模型,国内用户却一边倒地叫好。

原因只有一个:它对汉字的支持,堪称完美。

在社区的实测返图中,你能看到罗永浩和王自如的名场面辩论:

图源: src="https://img. width="941" />

图源: src="https://img. width="524" />

图源: 2的强大得以更加淋漓尽致地体现。

在对比测试中,前代模型1.5版本虽然能画出像菜谱的东西,但仔细一看,文字几乎全是乱码。

图源: 2生成的相同菜谱,却让人看到了文字清晰度和审美已经有了里程碑式的突破。

图源: 2,也并没有真正理解文字的规律。它只是死记硬背了文字在像素层面上的长相。

一张与奥特曼谈生意的图暴露了这一点:两箱饮料包装上大大的蒙牛和王老吉写得极其完美,底下的小字却依然是模糊的色块。

图源: 2也有它笨拙的一面。

实测中发现,由于思考模式会调用联网搜索并进行逻辑推演,在处理极其复杂的虚构任务时,模型偶尔会陷入逻辑怪圈思考了接近40分钟,仍然无法作答。

与此同时,API宣称的支持2K甚至4K分辨率,意味着极高的token消耗和延迟。

对于普通用户来说,如何在极致画质和响应速度之间取得平衡,是未来使用中的必修课。

在技术领域,强大的能力永远是一把双刃剑。

无论是图像模型还是视频模型,都不可避免地要面对深度伪造的伦理挑战。

目前的大部分实测案例中,AI生成的都是知名人物,但若是将他们换成各种社交媒体上发布过照片的普通人,在不认识本人的情况下已经极难分辨出真假。

除了背景中偶尔出现的乱码可能会让AI露馅,人体本身已经没有任何破绽。

因此,那些曾经必须由真人完成的领域,正在面临着前所未有的信任危机。

GPT-Image 2的发布,让生图模型从玩具走向了生产力工具。

过去人们用AI提供灵感,而如今的AI开始尝试接管从构思、计算、排版到成品的全流程。

对于设计从业者来说,这是一个充满FOMO的时代。

但对于那些善于利用工具、具备产品审美和逻辑思维的人来说,这又是一个最好的时代。

图像开始学会思考,文字不再是像素的杂音。

人们距离那个所思即所得的视觉奇点,可能真的只有一步之遥了。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。