
新智元报道
编辑:好困 桃子
深夜,OpenAI祭出「双子星」GPT-5.4 mini和nano,实力逼近满血版,速度性价比拉满,用来编码、当「龙虾」主力真香!
OpenAI一声不吭,又扔了一颗炸弹。
今天,GPT-5.4 mini和GPT-5.4 nano正式发布。
没有预热,没有倒计时,直接上线。

这两个模型要解决的问题很明确:在真实的生产环境里,怎么让AI又快又准又便宜地干活?
它们继承了GPT-5.4核心优势,速度拉满、成本更低,堪称轻量级模型巅峰之作。
先说最炸裂的数字——
编码(SWE-Bench Pro):GPT-5.4 mini拿下54.4%,而满血版GPT-5.4是57.7%;
计算机使用(OSWorld-Verified):GPT-5.4 mini 72.1%的成绩,媲美GPT-5.4(75%)
另外,在推理、工具调用等任务中,mini的实力直接逼近GPT-5.4。
而且,相较于上一代GPT-5 mini,GPT-5.4 mini运行速度直接飙升2倍!

网友直言,mini和nano完全可以当做「龙虾」的主力模型来用!


GPT-5.4 mini有400k超大上下文,输入价格0.75美元/百万token,输出价格4.5美元/百万token;
GPT-5.4 nano输入价格0.2美元/百万token,输出价格1.25美元/百万token。
相较于GPT-5.4,mini输出价格是其1/3,而nano价格只有1/12。

如今,快、强、便宜,三个词同时成立了。
而在半年之前,这是完全不可能的。


有人试用后惊叹道,简直太香了!不仅速度快,还要比Claude 4.6 Opus便宜9倍。

代码恐怖进化
mini追平「满血」,nano吊打前代
先看编码。
SWE-Bench Pro是目前衡量大模型「真实编码能力」最硬核的基准之一,它不考填空题,而是让模型直接修复GitHub上的真实软件Bug。
GPT-5.4 mini拿下54.4%,距满血版GPT-5.4(57.7%)只差3.3%。
这意味着一个为速度和成本优化的小模型,在解决真实工程问题时,已经摸到了旗舰模型的天花板。

而上一代GPT-5 mini仅45.7%,mini到mini之间,一代之隔就是近9%的飞跃。
Terminal-Bench 2.0的差距更夸张。GPT-5.4 mini拿下60.0%,GPT-5 mini只有38.2%,提升幅度超过57%。

即便是最小号的nano,也在SWE-Bench Pro上打出了52.4%,比上一代mini还高出近7%。
一个定位于「分类和数据提取」的超轻量模型,代码能力居然碾压上一代的中量级选手,这就是蒸馏模型在过去几个月的进化速度。
对开发者来说,这组数据的实际含义非常直接:
那些不需要旗舰模型「满功率思考」的编码任务,比如定向代码修改、前端页面生成、调试循环、代码库检索,现在可以全部交给mini,速度快一倍,成本低一大截,效果几乎无损。
博士级推理,复杂工具调用双杀
编码只是一个切面,推理和工具调用能力,决定了一个模型能不能真正「干活」。
GPQA Diamond是一个博士级科学推理基准,GPT-5.4 mini取得了88%的成绩,与GPT-5.4仅差5%。
更值得关注的是「工具调用」能力。
Toolathlon主要测试模型在复杂工具链中的表现,不只是调一次API,而是在多步骤任务中正确地组合、排序、使用多种工具。
结果,GPT-5.4 mini得分42.9%,完全碾压GPT-5 mini(26.9%)。

此外,在电信行业专用基准τ2-bench上,mini更是打出了93.4%的超高分,几乎追平满血版98.9%,把GPT-5 mini(74.1%)远远甩在身后。
在另一个工具调用基准MCP Atlas上,GPT-5.4 mini拿到57.7%,而GPT-5 mini只有47.6%。
这些数字汇成一句话:GPT-5.4 mini不只是一个「缩小版的聪明模型」,它是一个真正能在生产环境中独立完成复杂任务链的执行者。
「龙虾」主力
小模型也能「看屏幕干活」
GPT-5.4 mini真正让人意外的,是它在计算机使用上的表现。
人怎么用电脑?眼睛看屏幕上的UI元素,大脑判断该点哪里,手去操作鼠标和键盘。
如果AI要真正成为你的「赛博助理」,它也得学会这套——快速解析一张信息密集的屏幕截图,定位按钮、输入框和数据列表,然后做出正确操作。
OSWorld-Verified就是测这个「视觉理解+推理+操作」三位一体的综合能力的。
在这张榜上,GPT-5.4 mini拿到了72.1%,而旗舰版GPT-5.4是75.0%。差距不到3个百分点。
反观GPT-5 mini只有42.0%。一代之间,计算机使用能力几乎翻了一倍。

不过,nano在这项测试中只拿到了39.0%,甚至略低于上一代GPT-5 mini的42.0%。
这说明计算机使用任务对模型的视觉推理能力有很高的门槛要求,不是单纯缩小模型就能保住的:mini和nano之间存在一道清晰的能力断层。
在MMMUPro(含Python工具)上,mini拿到78.0%,旗舰版81.5%,差距同样很小。
这个基准涵盖了大量需要结合视觉信息和数学/代码工具进行推理的复杂题目。

这组结果对一个特定方向有重大意义:AI Agent。
当一个小模型能快速解析信息密集的UI截图,并在低延迟下做出正确操作决策时,它就成了构建实时计算机使用Agent的理想引擎——成本低,响应快,能力够。
在TBPN最新访谈中,奥特曼明确了下一步愿景:
OpenAI将推出一个进化版的Codex,新版本不再局限于编程,将演变成一个「控制计算机」的强大工具。
在他设想中,人们可以完全通过手机启动并管理新任务,真正的终极体验是,拥有一个基于统一后端的个人专属的AI。
它能访问个人所有数据、想法、素材、记忆,并能跨越多个终端,无缝执行任务





京公网安备 11011402013531号