当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI最强编程模型登场，实测竟又被Gemini 3 Flash按趴下

IP属地中国·北京 智东西 时间：2025-12-19 12:19:03

智东西
编译王欣逸
编辑程茜
智东西12月19日消息，今日凌晨，OpenAI发布最新编程模型GPT-5.2-Codex，该模型基于GPT-5.2，对智能体编程能力进行了深度优化，具体包括：提升了长程任务执行、大规模代码变更、兼容Windows环境以及网络安全防御等能力。OpenAI在博客中称这是他们迄今为止最强的编程模型。

据OpenAI官方博客，GPT‑5.2-Codex不仅继承了GPT‑5.2⁠的优势，还融合了GPT‑5.1-Codex-Max⁠的前沿智能体编程与终端操作能力，专为复杂的现实软件工程和网络安全等专业领域设计，
OpenAI已率先在Codex CLI、IDE扩展、云端以及代码审查中发布了GPT‑5.2-Codex，今日起已向所有付费ChatGPT用户开放，API访问也即将上线。
值得一提的是，GPT‑5.2-Codex发布之前，谷歌刚宣布推出Gemini 3 Flash模型。有网友让GPT‑5.2-Codex的Gemini 3 Flash共同执行任务，结果，GPT‑5.2-Codex败下阵来，在对50个文件进行漏洞审查的任务中，Gemini 3 Flash用时1分2秒，发现了5个问题，而GPT-5.2-Codex用时4分48秒，仅发现了2个Gemini 3 Flash已找到的问题。

GPT‑5.2-Codex的性能可能不及预期。有网友称，GPT‑5.2-Codex在SWE-Bench Pro上性能提升不到1%，还没有发布SWE-Bench Verified结果，这不免让人推测GPT‑5.2-Codex并未达当前最优水平，在一些系统卡基准测试中还出现了性能退步。

据OpenAI官方博客，从功能上看，GPT‑5.2-Codex新增了原生上下文压缩技术，在长上下文理解、工具调用、事实准确性以及原生的上下文压缩上表现提升，推理时Token使用效率提升，还能更精准地理解在编码过程中共享的截图、技术图表、数据图以及用户界面。在原生Windows环境中，GPT‑5.2-Codex对GPT‑5.1-Codex-Max的能力做了进一步的升级，智能体编程表现更加高效和可靠。
GPT‑5.2-Codex在实际软件工程任务中的表现有所提升，包括了代码库导航、重构、Pull Request的创建与审查等方面。
从基准测试来看，GPT‑5.2-Codex在评估修复真实世界代码问题的SWE-Bench Pro基准测试中得分为56.4%，超越GPT-5.2的55.6%得分以及GPT-5.1的50.8%得分；在衡量编译和服务器配置等任务的Terminal-Bench 2.0基准测试中，GPT‑5.2-Codex得分为64.0%，显著领先前代版本GPT‑5.1-Codex-Max的58.1%，展示出了模型在使用命令行和终端解决代理任务的进步。

据OpenAI官方博客，在网络安全领域，GPT‑5.2-Codex在夺旗挑战（CTF）中创下所有模型的最佳纪录。从折线轨迹来看，我们也能得出，就网络安全评估，OpenAI的模型能力正在持续提升。OpenAI博客称，他们正在全面升级网络安全防护，还引入可信访问机制来支持防御工作。

OpenAI首席执行官萨姆·阿尔特曼（Sam Altman）称，上周，一位安全研究人员利用GPT‑5.1-Codex-Max发现并披露了React中的一个漏洞，该漏洞可能导致源代码泄漏。这反映出了模型能力应用于网络安全带来的实际价值。阿尔特曼还提到，这些模型还在不断改进中，最终会给网络安全带来益处。

结语：AI编程工具竞争加剧
GPT-5.2-Codex是OpenAI在编程模型上的又一次迭代，通过提升长程任务处理、大规模代码变更和特定环境表现，它为复杂开发与安全研究提供了更强大的支持，有望成为发现和修复漏洞的有力工具。
在OpenAI本次更新之前，谷歌同日也发布了低成本的Gemini 3 Flash模型，AI编程赛道竞争持续激烈。就目前来看，号称OpenAI最强编程模型的GPT-5.2-Codex在现实场景中的实际效能、与竞争对手产品的比较表现或许不及预期，该模型的实际应用效果和性能检验或将成为接下来的焦点。
OpenAI、X

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

不是GPT-5.4，OpenAI深夜发新模型！幻觉率暴降27%

阶跃星辰全面开源 Step 3.5 Flash：冲上 OpenClaw Top2

苏姿丰：CPU需求“令人惊讶”，AMD正努力扩产解决供应瓶颈

为“人造太阳”锻造“护目镜”，纳米尺度执光者托举中国制造新精度 | 科创之城巾帼骐骥

中国移动发布全球首台超百T智算互联路由器样机

首发搭载华为新一代激光雷达阿维塔06T确认劳动节前后上市

全站最新

不是GPT-5.4，OpenAI深夜发新模型！幻觉率暴降27%

阶跃星辰全面开源 Step 3.5 Flash：冲上 OpenClaw Top2

苏姿丰：CPU需求“令人惊讶”，AMD正努力扩产解决供应瓶颈

为“人造太阳”锻造“护目镜”，纳米尺度执光者托举中国制造新精度 | 科创之城巾帼骐骥

热门推荐

SK海力士推进全新HBM封装技术，或缩小DRAM层间距

京东雏鹰幼儿园开园试运行

智元宣布灵渠OS开源上线

80 亿砸出马年春节“AI 巅峰”：豆包除夕互动 19 亿次，千问稳守 4000 万日活，谁在裸泳？

GPT-5.2与Claude4共演“核危机”:前沿模型在战略模拟中展现复杂推理与欺骗能力

40 克轻如蝉翼！讯飞 AI 眼镜 MWC 2026 全球首秀：首创“看唇语”降噪，跨国交流翻译官就在眼前

不是GPT-5.4，OpenAI深夜发新模型！幻觉率暴降27%

阿里Qwen负责人林俊旸发文卸任

阶跃星辰全面开源 Step 3.5 Flash：冲上 OpenClaw Top2

苏姿丰：CPU需求“令人惊讶”，AMD正努力扩产解决供应瓶颈

为“人造太阳”锻造“护目镜”，纳米尺度执光者托举中国制造新精度 | 科创之城巾帼骐骥

中国移动发布全球首台超百T智算互联路由器样机

全国人大代表、小米创始人雷军：建议智能驾驶内容进驾考

首发搭载华为新一代激光雷达阿维塔06T确认劳动节前后上市

MOREFINE摩方推出NEXUS N1紧凑型AI工作站，基于PRO 8845HS