当前位置：首页 » 资讯 » 新科技 » 正文

奥特曼亲自上阵，Images 2.0登顶王座！大米刻字，生图跨入GPT-5时代

IP属地中国·北京 编辑：赵静新智元 时间：2026-04-22 17:02:38

新智元报道
编辑：好困桃子
今夜，ChatGPT Images 2.0震撼上线，成为首个「会思考」的图像AI。奥特曼直呼这是从GPT-3到GPT-5的飞跃。它不仅能精准听懂中文指令、渲染复杂UI，甚至能在米粒上刻字。
那个熟悉的OpenAI又回来了！
凌晨，奥特曼亲自带队，开启20分钟线上直播，打破了数日的沉寂。
OpenAI终于祭出了传闻中的ChatGPT Images 2.0，正式开启图像生成的全新纪元。
Images 2.0是一次质的飞跃，它在精准听懂长指令、准确摆放并理清物体间关系、渲染密集文本方面有了巨大突破。
最重要的是，它是首个具备「思考能力」的图像模型，可以联网搜索实时信息、二次自检。
它还能一次性直出八张风格连贯的图，最高支持2K超清分辨率。
这么说吧，Images 2.0的出世，重新定义了视觉生成的统治力——
像素级精度：小字号文本、图标、UI元素等复杂细节一键生成，支持3:1到1:3全尺寸输出；
多语言质变：中日韩等非拉丁文字精准渲染，不仅字拼得对，语句也通顺连贯；
风格成熟：照片级逼真感，电影剧照、像素艺术、漫画等视觉语言都拿捏得住；
会思考：首个具备推理能力的图像模型，能联网搜索、自检输出，知识更新至2025年12月。
在Arena最新榜单中，Images 2.0一骑绝尘，登顶全球AI生图王座。实力暴击谷歌Nano Banana 2/Pro版本，领先242分。
它在全部7个文生图类别中，全部位列第一。
在这个任务中，ChatGPT调用了两种不同的「视觉智能」：
首先是「视觉理解」能力，它要真切地去「看」照片。理解一个人的样貌，然后规划出合适的服装搭配方案。
另一个维度则是「视觉生成」能力。它需要把规划好的服装布局，转化为一张连贯且有条理的图片。
以前想做一组社交媒体素材，你得一张张生成，自己拼接。现在一句prompt，Twitter、Instagram Stories、Instagram Feed、linkedIn四种尺寸一次性出齐，色调和构图风格统一。
官方Demo展示了一家布鲁克林抹茶店「kizuki」的广告素材，冰镇草莓抹茶在阳光下的画面，街头服饰美学搭配日式极简，四种社交平台尺寸一步到位。
还有一个学术论文海报的Demo，直接上传PDF，模型自动提取关键图表、数据和结构，排版成一张横版海报。
值得一提的是，Images 2.0开启思考模式后，还可以直接联网搜索信息。
团队透露，几天前在Arena盲测的「DuckTape」就是今天的Images 2.0。
然后，他们让Images 2.0搜集网友反馈，并制作成一张图。没想到，模型还生成了一个可直接扫描的「二维码」。
ChatGPT、Codex全线开放
从今天起，所有ChatGPT、Codex都可以用上ChatGPT Images 2.0。
带有「思考」过程的图像生成功能，已向ChatGPT Plus、Pro、Business用户开放。底层模型gpt-image-2也已在API中上线。
在定价方面，ChatGPT Images 2.0更强了，同时toekn输入/输出价格没有涨。
对普通用户来说，演示文稿配图、社交媒体海报、产品宣传卡片这些过去要开Photoshop折腾半天的活，现在一句prompt搞定。
对开发者和企业来说，本地化广告、多语言信息图、教育内容、设计工具这些需要大量人工的视觉工作流，现在都可以通过API批量自动化了。
Codex里更是把图像生成整合进了工作区，设计团队可以在同一个环境里出UI方案、比选项、转产品，全程不用切换工具。
图像生成的iPhone时刻？
回头看，从DALLE到Midjourney到Stable Diffusion，AI图像生成一直处在「够用但不太行」的状态。
文字渲染翻车、多语言拉胯、风格千篇一律、构图一眼AI，这些痛点每一个都劝退了想把AI图像用在正经场景里的人。
Images 2.0一口气把这些短板全补上了，还加了思考能力和多图一次性生成。
虽然它离「完美」还有距离，但它可能是第一个让设计师、营销人员和内容创作者觉得「这东西我真的可以用在工作里」的AI图像模型。
现在，设计师们可能要重新想想，自己的护城河到底在哪里了。
参考资料：
https://x.com/OpenAI/status/2046661795327459677
https://x.com/OpenAI/status/2046670977145372771
https://openai.com/index/introducing-chatgpt-images-2-0/
https://x.com/sama/status/2046672912833458597

标签：图像语言视觉中文模型风格细节漫画 陈博远 信息文本像素能力连贯广告团队小字艺术王座全部社交 奥特曼 海报刻字登顶光线时代胶片生图规划产品文字环境

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

斯坦福大学提出"去中心化AI协作框架"，效率翻倍还省钱一半

北京航空航天大学让AI学会"认出"不同曝光下的PET扫描图

南丹麦大学推出"脑外科手术"工具：让AI模型改造像写菜谱一样简单

云南高速新能源汽车碰撞起火？鸿蒙智行紧急澄清非旗下车型

微星Maestro 500 Wireless头戴式耳机发布，三模连接

低空专用双转子增压发动机R10TE点火成功

全站最新

斯坦福大学提出"去中心化AI协作框架"，效率翻倍还省钱一半

北京航空航天大学让AI学会"认出"不同曝光下的PET扫描图

南丹麦大学推出"脑外科手术"工具：让AI模型改造像写菜谱一样简单

云南高速新能源汽车碰撞起火？鸿蒙智行紧急澄清非旗下车型

热门推荐

美的集团在广西成立新公司

大模型长文本迎来新突破，智谱AI正式开源旗舰模型GLM-5.2

Snap发布全新AR智能眼镜SPECS，加速空间计算布局

贾跃亭发布人形机器人和机器狗，FF全面进军消费级机器人市场

斯坦福大学提出"去中心化AI协作框架"，效率翻倍还省钱一半

北京航空航天大学让AI学会"认出"不同曝光下的PET扫描图

南丹麦大学推出"脑外科手术"工具：让AI模型改造像写菜谱一样简单

云南高速新能源汽车碰撞起火？鸿蒙智行紧急澄清非旗下车型

微星Maestro 500 Wireless头戴式耳机发布，三模连接

低空专用双转子增压发动机R10TE点火成功

复宏汉霖(02696)：HLX3902注射液用于转移性去势抵抗性前列腺癌及其他晚期实体瘤治疗的1期临床试验申请获国家药监局批准

服务分发+AI：鸿蒙负一屏如何成为服务的「场景级入口」?

佑驾创新(02431)开城突围无人车进入“新九竹”三国时代

Gensyn公司研究团队打造的"超轻量级AI调度员"

阿里云扩建全球基础设施，新增法国巴黎、马来西亚柔佛地域