21世纪经济报道记者 董静怡
12月11日,OpenAI发布GPT-5.2,距离上次版本更新不到一个月。与以往追求颠覆性不同,这次发布的主题明确且务实,官方称这是其“迄今为止功能最强大的专业知识工作模型系列”。
这显然是对近期谷歌Gemini 3强势崛起的回应。
就在上个月,谷歌发布了Gemini 3,凭借其在多模态推理、复杂逻辑任务和实时工具调用等方面的突破性表现,迅速抢占多个权威基准测试榜首,并开始蚕食OpenAI在开发者生态与企业客户中的既有优势。
随后,OpenAI首席执行官山姆·奥特曼向员工发布了一份内部备忘录,宣布公司进入最高紧急状态“红色警报”(Code Red),暂停所有非核心项目,将所有工程和资源集中用于优化其核心产品ChatGPT。一周之后,GPT-5.2火速上线。
GPT-5.2更像是一次战略防守与务实推进。在竞争压力之下,OpenAI必须证明自己的模型不仅更聪明,也更实用。
(资料图)
OpenAI正将重心从炫目的新功能转向提升可用性和可靠性。
在发布中,OpenAI称GPT-5.2是其“迄今为止功能最强大的专业知识工作模型系列”,显然是冲着最近风头正劲的Gemini 3。OpenAI表示,GPT-5.2在创建电子表格、制作演示文稿、编写代码、识别图像、理解长篇上下文、使用工具以及处理复杂的多步骤项目方面都表现更出色。
GPT-5.2分为三个版本:Instant、Thinking和Pro,分别对应不同应用场景和价格层级。Instant版本在写作和信息检索方面速度更快,Thinking版本更擅长结构化工作,例如编码和规划,而Pro版本则能为难题提供最准确的答案。
其中,GPT-5.2 Thinking在OpenAI自研的GDPval基准测试中创下历史最高分,是最适合真实世界专业场景的模型。该测试在44个真实职业场景中对比AI模型与人类专业人士的表现,公司表示,GPT-5.2 Thinking在超过70%的任务中胜过人类专家。
即使是初级投资银行分析师的角色建模电子表格任务,GPT-5.2 Thinking的平均得分也高达68.4%,比上一代GPT 5.1提高了9.3个百分点。
除了超越人类专家外,GPT-5.2的产出速度是人类专家的11倍以上,而成本不到人类的1%。这种效率与成本的巨大优势,使其在企业市场展现出强大的商业化潜力。
可靠性提升是GPT-5.2的另一大亮点,新版本能显著减少“幻觉”(hallucinations)。据公司数据,在针对事实性问答的基准测试中,GPT-5.2 Thinking的幻觉率比GPT-5.1降低了30%。这意味着在金融分析、法律研究、医疗诊断支持等容错率极低的领域,AI的可用性迈出了实质性一步。
在编码能力方面,GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成绩,在SWE-bench Verified上更是达到80%的新高。对于日常专业用途而言,这意味着该模型可以更可靠地调试生产代码、实现功能请求、重构大型代码库,并以更少的人工干预实现交付。
“GPT-5.2在端到端执行复杂的现实世界任务方面比以往任何模型都做得更好。”OpenAI总结道。
GPT-5.2将同时面向ChatGPT用户和使用OpenAI API的开发者开放。在API平台,GPT-5.2定价为每百万输入token 1.75美元、每百万输出token 14美元。OpenAI称,尽管GPT-5.2的单个token成本更高,但由于其更高的token效率,达到特定质量水平的总成本反而更低。
值得注意的是,就在几天前,山姆·奥特曼宣布公司进入“红色警报”状态,推迟广告业务及AI代理等新项目开发,集中资源优化ChatGPT核心技术。他在备忘录中直言:“我们正处于ChatGPT的关键时刻。”
过去两年,AI行业陷入“模型竞赛”,但资本市场对单纯的技术突破已显疲态,投资者关注焦点已从谁的模型更强转向谁的AI能赚钱。
此背景下,竞争对手谷歌的Gemini 3发布引发行业震动,该模型不仅刷新多项性能记录,更展现了AI从“回答问题”到“完成工作”的转变,被认为是谷歌重回AI第一阵营的标志。
Salesforce首席执行官马克·贝尼奥夫近日表示,因Gemini的“惊人”进步,他目前已放弃ChatGPT并转投Gemini 3。“AI教父”辛顿也将赌注压给了谷歌,他表示,“我觉得更让人意外的是,谷歌居然花了这么久才超越OpenAI”。
根据Sensor Tower的数据,ChatGPT的月活在8月到11月之间仅增长约6%,达到约8.1亿,这可能意味着ChatGPT正逐渐接近市场饱和。相比之下,Gemini的全球月活在同期跃升约30%,主要受其新图像生成模型Nano Banana推出后带来的用户激增影响。
这些无疑都在给“老牌王者”OpenAI带来紧迫感。
OpenAI应用业务CEO菲吉·西莫周四向媒体表示:“我们宣布‘红色警报’,是为了向全公司明确传达一个信号:我们要集中资源聚焦于一个关键领域,以此真正厘清优先事项。目前,我们已大幅增加了投入到ChatGPT的整体资源。”
西莫否认OpenAI因“红色警报”而提前了GPT-5.2的发布时间,称公司数月来一直在筹备这一模型的发布。但她也承认,围绕ChatGPT增加的资源“确实起到了帮助作用”。
从GPT-5.2的发布不难看出,其努力提升在专业场景中的可用性和可靠性。在竞争压力下,OpenAI不得不加速商业化进程,将技术优势转化为真金白银的收入。
此次战略调整也暴露了OpenAI面临的财务压力。公司已签署了价值高达1.4万亿美元的巨额算力基础设施合约,若用户增长放缓或市场份额流失,维持这一商业逻辑就会变得有些艰难。
但谷歌的竞争优势不仅仅体现在模型性能上。其拥有从搜索引擎到移动操作系统、从办公套件到云服务平台的完整的生态系统,为Gemini提供了OpenAI难以复制的应用场景。
面对这种局面,OpenAI的选择有限,但也是明确的。在生态劣势的情况下,依靠模型性能的领先维持用户忠诚度;在性能领先受到威胁时,加快迭代速度,优化用户体验和参与度。
GPT-5.2就是这个策略链条中的最新一环,它可能不是最革命性的更新,但必须是最能留住用户的更新。





京公网安备 11011402013531号