当前位置: 首页 » 资讯 » 新科技 » 正文

奥特曼亲自上阵,Images 2.0登顶王座!大米刻字,生图跨入GPT-5时代

IP属地 中国·北京 编辑:赵静 新智元 时间:2026-04-22 17:02:38

新智元报道

编辑:好困 桃子

今夜,ChatGPT Images 2.0震撼上线,成为首个「会思考」的图像AI。奥特曼直呼这是从GPT-3到GPT-5的飞跃。它不仅能精准听懂中文指令、渲染复杂UI,甚至能在米粒上刻字。

那个熟悉的OpenAI又回来了!

凌晨,奥特曼亲自带队,开启20分钟线上直播,打破了数日的沉寂。

OpenAI终于祭出了传闻中的ChatGPT Images 2.0,正式开启图像生成的全新纪元。

Images 2.0是一次质的飞跃,它在精准听懂长指令、准确摆放并理清物体间关系、渲染密集文本方面有了巨大突破。

最重要的是,它是首个具备「思考能力」的图像模型,可以联网搜索实时信息、二次自检。

它还能一次性直出八张风格连贯的图,最高支持2K超清分辨率。

这么说吧,Images 2.0的出世,重新定义了视觉生成的统治力——

像素级精度:小字号文本、图标、UI元素等复杂细节一键生成,支持3:1到1:3全尺寸输出;

多语言质变:中日韩等非拉丁文字精准渲染,不仅字拼得对,语句也通顺连贯;

风格成熟:照片级逼真感,电影剧照、像素艺术、漫画等视觉语言都拿捏得住;

会思考:首个具备推理能力的图像模型,能联网搜索、自检输出,知识更新至2025年12月。

在Arena最新榜单中,Images 2.0一骑绝尘,登顶全球AI生图王座。实力暴击谷歌Nano Banana 2/Pro版本,领先242分。

它在全部7个文生图类别中,全部位列第一。

在这个任务中,ChatGPT调用了两种不同的「视觉智能」:

首先是「视觉理解」能力,它要真切地去「看」照片。理解一个人的样貌,然后规划出合适的服装搭配方案。

另一个维度则是「视觉生成」能力。它需要把规划好的服装布局,转化为一张连贯且有条理的图片。

以前想做一组社交媒体素材,你得一张张生成,自己拼接。现在一句prompt,Twitter、Instagram Stories、Instagram Feed、linkedIn四种尺寸一次性出齐,色调和构图风格统一。

官方Demo展示了一家布鲁克林抹茶店「kizuki」的广告素材,冰镇草莓抹茶在阳光下的画面,街头服饰美学搭配日式极简,四种社交平台尺寸一步到位。

还有一个学术论文海报的Demo,直接上传PDF,模型自动提取关键图表、数据和结构,排版成一张横版海报。

值得一提的是,Images 2.0开启思考模式后,还可以直接联网搜索信息。

团队透露,几天前在Arena盲测的「DuckTape」就是今天的Images 2.0。

然后,他们让Images 2.0搜集网友反馈,并制作成一张图。没想到,模型还生成了一个可直接扫描的「二维码」。

ChatGPT、Codex全线开放

从今天起,所有ChatGPT、Codex都可以用上ChatGPT Images 2.0。

带有「思考」过程的图像生成功能,已向ChatGPT Plus、Pro、Business用户开放。底层模型gpt-image-2也已在API中上线。

在定价方面,ChatGPT Images 2.0更强了,同时toekn输入/输出价格没有涨。

对普通用户来说,演示文稿配图、社交媒体海报、产品宣传卡片这些过去要开Photoshop折腾半天的活,现在一句prompt搞定。

对开发者和企业来说,本地化广告、多语言信息图、教育内容、设计工具这些需要大量人工的视觉工作流,现在都可以通过API批量自动化了。

Codex里更是把图像生成整合进了工作区,设计团队可以在同一个环境里出UI方案、比选项、转产品,全程不用切换工具。

图像生成的iPhone时刻?

回头看,从DALLE到Midjourney到Stable Diffusion,AI图像生成一直处在「够用但不太行」的状态。

文字渲染翻车、多语言拉胯、风格千篇一律、构图一眼AI,这些痛点每一个都劝退了想把AI图像用在正经场景里的人。

Images 2.0一口气把这些短板全补上了,还加了思考能力和多图一次性生成。

虽然它离「完美」还有距离,但它可能是第一个让设计师、营销人员和内容创作者觉得「这东西我真的可以用在工作里」的AI图像模型。

现在,设计师们可能要重新想想,自己的护城河到底在哪里了。

参考资料:

https://x.com/OpenAI/status/2046661795327459677

https://x.com/OpenAI/status/2046670977145372771

https://openai.com/index/introducing-chatgpt-images-2-0/

https://x.com/sama/status/2046672912833458597

标签: 图像 语言 视觉 中文 模型 风格 细节 漫画 陈博远 信息 文本 像素 能力 连贯 广告 团队 小字 艺术 王座 全部 社交 奥特曼 海报 刻字 登顶 光线 时代 胶片 生图 规划 产品 文字 环境

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。