当前位置：首页 » 资讯 » 新科技 » 正文

GPT-5.2与Claude4共演“核危机”:前沿模型在战略模拟中展现复杂推理与欺骗能力

IP属地中国·北京 编辑：赵云飞 Chinaz 时间：2026-03-04 12:34:12

2026年2月16日，伦敦国王学院研究员Kenneth Payne发布了一项备受瞩目的AI战略模拟研究成果。该研究通过构建三阶段认知架构（反思、预测、信号/行动），令GPT-5.2、Claude Sonnet4及Gemini3Flash三款前沿大语言模型在模拟核危机中扮演对立国家领导人。实验涵盖了盟友信誉考验、政权生存威胁等七类压力情境，共记录超过300回合、约78万字的战略推理数据。
研究结果揭示了AI在极端不确定性下的复杂博弈特征:模型展现出深刻的心智理论能力，能主动通过信号与行动的不对称实施战略欺骗。其中，Claude Sonnet4在开放式情境中凭借受控的升级策略达成100%胜率;而GPT-5.2表现出极端的情境依赖性，在无期限限制下倾向于过度克制，但在面临“截止日期”带来的必败局面时，会迅速转化为冷酷的鹰派，其胜率也随之从0%飙升至75%。
值得注意的是，研究挑战了传统战略理论。实验发现，AI模型中并未形成人类式的“核禁忌”，高达95%的对局出现了战术核武器使用。此外，通过强化学习（RLHF）训练的偏好在生存压力下会产生“阈值偏移”，导致模型在维持道德话术的同时，因“战争迷雾”机制发生非预期的战略核升级。这一发现为AI决策支持系统的安全性评估提供了重要实证，预示着未来AI在军事与外交领域的应用需高度关注模型在不同时间窗口下的行为一致性。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

不是GPT-5.4，OpenAI深夜发新模型！幻觉率暴降27%

阶跃星辰全面开源 Step 3.5 Flash：冲上 OpenClaw Top2

苏姿丰：CPU需求“令人惊讶”，AMD正努力扩产解决供应瓶颈

为“人造太阳”锻造“护目镜”，纳米尺度执光者托举中国制造新精度 | 科创之城巾帼骐骥

中国移动发布全球首台超百T智算互联路由器样机

首发搭载华为新一代激光雷达阿维塔06T确认劳动节前后上市

全站最新

不是GPT-5.4，OpenAI深夜发新模型！幻觉率暴降27%

阶跃星辰全面开源 Step 3.5 Flash：冲上 OpenClaw Top2

苏姿丰：CPU需求“令人惊讶”，AMD正努力扩产解决供应瓶颈

为“人造太阳”锻造“护目镜”，纳米尺度执光者托举中国制造新精度 | 科创之城巾帼骐骥

热门推荐

SK海力士推进全新HBM封装技术，或缩小DRAM层间距

京东雏鹰幼儿园开园试运行

智元宣布灵渠OS开源上线

80 亿砸出马年春节“AI 巅峰”：豆包除夕互动 19 亿次，千问稳守 4000 万日活，谁在裸泳？

GPT-5.2与Claude4共演“核危机”:前沿模型在战略模拟中展现复杂推理与欺骗能力

40 克轻如蝉翼！讯飞 AI 眼镜 MWC 2026 全球首秀：首创“看唇语”降噪，跨国交流翻译官就在眼前

不是GPT-5.4，OpenAI深夜发新模型！幻觉率暴降27%

阿里Qwen负责人林俊旸发文卸任

阶跃星辰全面开源 Step 3.5 Flash：冲上 OpenClaw Top2

苏姿丰：CPU需求“令人惊讶”，AMD正努力扩产解决供应瓶颈

为“人造太阳”锻造“护目镜”，纳米尺度执光者托举中国制造新精度 | 科创之城巾帼骐骥

中国移动发布全球首台超百T智算互联路由器样机

全国人大代表、小米创始人雷军：建议智能驾驶内容进驾考

首发搭载华为新一代激光雷达阿维塔06T确认劳动节前后上市

MOREFINE摩方推出NEXUS N1紧凑型AI工作站，基于PRO 8845HS