当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI红色警报下的反击：发布GPT-5.2迎战Gemini 3

IP属地中国·北京 DeepTech深科技 时间：2025-12-12 14:17:31

当谷歌的 Gemini 在各大 AI 排行榜上风头正劲时，OpenAI 终于打出了新的王牌。
周四，这家 AI 巨头发布了 GPT-5.2，称其是迄今为止“最强大的模型”，专为开发者和职场人士打造。

（OpenAI）
这场发布会的时机颇为微妙。
一个月前，OpenAI CEO 山姆·奥特曼（Sam Altman）向内部发出“红色警报”，承认 ChatGPT 面临巨大竞争压力，正在输掉消费市场份额。今天的 GPT-5.2 正是 OpenAI 试图夺回领导地位的关键一步。
同时，今天也是 OpenAI 官宣成立十周年的日子。
GPT-5.2 模型家族包括三个不同版本：Instant、Thinking 和 Pro。
Instant 是速度优化版本，专门处理日常查询，比如信息检索、写作和翻译这类常规任务。
Thinking 则擅长复杂的结构化工作，在编程、分析长文档、数学计算和项目规划方面表现突出。
Pro 则是顶级版本，旨在为最棘手的问题提供最高精度和可靠性。它的运行速度显著慢于其他版本，且成本极其高昂，专为那些准确性高于一切、成本退居其次的重要任务设计。
测试数据表明，Pro 版本是唯一在 ARC-AGI-1 推理基准测试中突破 90% 大关，并在 AIME 2025 数学竞赛中不使用工具就达到 100% 满分的模型。
在 ChatGPT 中，GPT-5.2 的三个版本已经上线，首先面向付费用户开放。OpenAI 表示将在未来几天逐步部署 GPT-5.2，以保持 ChatGPT 尽可能流畅和可靠。
“我们设计 GPT-5.2 就是为了给人们创造更多经济价值。”OpenAI 应用业务 CEO 菲吉·西莫（Fidji Simo）在发布会上表示。她强调，新模型在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本、使用工具以及处理复杂多步骤项目方面都有显著提升。

（OpenAI）
据其介绍，ChatGPT 企业版的普通用户表示“AI 每天为他们节省 40-60 分钟”，而重度用户每周节省时间“超过十小时”。GPT-5.2 的目标就是进一步扩大这种价值。
OpenAI 表示，GPT-5.2 在多项行业基准测试中创下新纪录。

图 | 多项基准测试成绩（OpenAI）
在涵盖 40 多种职业专业知识的 GDPval 测试中，GPT-5.2 Thinking 的表现达到了专家级水平。根据专业评审的判断，在 70.9% 的情况下，GPT-5.2 Thinking 击败或打平了顶级行业专业人士。这些任务包括制作演示文稿、电子表格和其他各类工作成果。
更重要的是，GPT-5.2 完成这些任务的速度是专业人士的 11 倍以上，成本却不到 1%，不过 OpenAI 并未公布模型 VS 人类的成本是如何计算的。

（OpenAI）
在软件工程领域，GPT-5.2 Thinking 在 SWE-Bench Pro 测试中达到了 55.6% 的新高分。这个成绩也是超过了 Claude 4.5 Sonnet 和 Gemini 3 Pro。在更基础的 SWE-bench Verified 测试中，GPT-5.2 的得分更是达到了 80%。

（资料图）
OpenAI 研究主管艾丹·克拉克（Aidan Clark）解释说，更强的数学能力不仅仅是解方程那么简单。数学推理能力是衡量模型能否遵循多步骤逻辑、保持数字长期一致性、避免可能随时间累积的细微错误的代理指标。
在科学问题方面，GPT-5.2 Pro 在 GPQA Diamond 测试中取得了 93.2% 成绩。GPT-5.2 Thinking 也有 92.4% 的高分。双双打破了 Gemini 3 Pro 保持的纪录。

图 | GPQA Diamond 榜单（OpenAI）
克拉克在发布会上分享了一个案例：团队让一位资深免疫学研究员使用 GPT-5.2 Pro，当研究员要求模型生成关于免疫系统最重要的未解问题时，模型产生了“更敏锐的问题和更有力的解释”，用于说明这些问题为何重要。该研究员认为其表现超过了“所有其他前沿模型”。
在可靠性方面，GPT-5.2 也取得了重要进展。OpenAI 后训练负责人马克斯·施瓦策（Max Schwarzer）指出，在衡量对事实性问题回答的基准测试中，GPT-5.2 Thinking 的幻觉出现率比 GPT-5.1 降低了 38%。

（OpenAI）
长文本理解方面，GPT-5.2 Thinking 同样创下了新纪录。OpenAI 采用 MRCRv2 评估来衡量模型整合分散在长文档中信息的能力。
处理需要跨越数十万 token 相关信息的真实任务时，GPT-5.2 Thinking 的准确性远超 GPT-5.1 Thinking。它是第一个在四针 MRCRv2 测试中（最多 256k token）实现接近 100% 准确率的模型。

（OpenAI）
这意味着专业人士可以更放心地使用 GPT-5.2 处理长文档，如报告、合同、研究论文、记录和多文件项目，同时在数十万 token 范围内保持连贯性和准确性。
在视觉能力方面，GPT-5.2 Thinking 在图表推理和软件界面理解方面的准确率提升近 50%。这意味着模型可以更准确地解读仪表板、产品截图、技术图表和可视化报告，支持更加依赖视觉信息的工作流。
相比之前的模型，GPT-5.2 Thinking 对图像中元素位置的把握更强。例如，在识别主板图像中的组件并返回大致边界框的任务中，即使在低质量图像上，GPT-5.2 也能识别主要区域并放置与每个组件真实位置有时匹配的框，而 GPT-5.1 只能标记少数部分，对空间排列的理解要弱得多。

（OpenAI）
值得一提的是，OpenAI 的新图像生成工具仍然缺位。据报道，奥特曼曾在内部红色警报备忘录中表示，图像生成将是未来的重点，特别是在谷歌的新版 Nano Banana 发布之后。
据报道，OpenAI 计划在明年一月发布另一款新模型，具有更好的图像效果、更快的速度和更好的个性，但尚未得到官方确认。
最后在发布会上，OpenAI 承认在某些方面还有改进空间。比如在 ChatGPT 中，公司正在努力解决过度拒绝等已知问题，同时继续提高回复的可靠性。此外，OpenAI 据传正在考虑开放模型成人内容限制。
对于 OpenAI 来说，GPT-5.2 能否帮助它重新夺回失去的领地，还需要时间来证明。
参考资料：
https://openai.com/index/introducing-gpt-5-2/
https://www.theverge.com/ai-artificial-intelligence/842529/openai-gpt-5-2-new-model-chatgpt
https://techcrunch.com/2025/12/11/openai-fires-back-at-google-with-gpt-5-2-after-code-red-memo/

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

小米VS华为！澎程新车对标问界，智界RX盯上小米YU7

出走米哈游1000多天后，蔡浩宇的AI远征“撞墙”

华为深圳场景化解决方案发布，破解“模型强、场景弱”难题

全站最新

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

三菱全新帕杰罗或9月2日发布，外观、动力等细节抢先看！

热门推荐

国产机器人产业加速出海，国内现存相关企业超115万家

国产机器人产业加速出海，国内现存相关企业超115万家

字节跳动Seedance 2.5发布：视频创作升级，支持30秒生成与多素材参考

2026年Q2全球智能手机出货量降6%：三星苹果领涨，小米等厂商承压

植物无大脑却能“对话”“预言”？重新认识地球生命信息网络中的它们

2026年7月手机圈大事件：苹果基带混用红米新机将至小米份额上升 OPPO新机万元起

消息称OPPO或推6.3-6.4英寸阔直屏新机预计与Ultra同档明年亮相

谷歌DeepMind再发力：新一代机器人AI模型攻克全身控制与灵巧操作难题

谷歌Gemini Robotics 2发布：单模型驱动全身自由度，开启机器人通用智能新篇

字节跳动Seedance 2.5发布：30秒生成高质量视频，优化连贯性还去“油腻感”

AI浪潮下企业变革：字节飞书调整，豆包成新增长引擎接棒前行

模型激战正酣，亚马逊云科技另辟蹊径率先收获AI商业硕果

字节跳动Seedance 2.5发布：视频时长延长至30秒，创作能力全面升级

B站运营“社区派”代表林航离职曾为即刻社区风格奠基人

谷歌推出三AI模型助力机器人进化：全身智控、多机协作，解锁多样任务新场景