当前位置：首页 » 资讯 » 新科技 » 正文

AI喜提物理奥赛金牌！来自上海的P1模型，如何开启“封神”之路？

IP属地中国·北京 上观新闻 时间：2025-11-06 10:15:09

打开百度APP畅享高清图片

新民晚报记者今天从上海人工智能实验室获悉，实验室近日在开源“通专融合”方面取得新进展。其P1物理推理模型系列，在通用模型的基础上，通过大规模、多阶段强化学习重点升级了物理专业能力。
其中，P1-235-A22B在2025年国际物理奥林匹克大赛（IPhO）拿下金牌，成为首个也是唯一获得金牌的开源模型；在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中，与Gemini-2.5-Pro并列奖牌榜第一。

P1在IPho 2025中的得分情况
初步具备解决复杂物理问题能力
物理推理是AI理解与塑造现实世界的核心能力。国际物理奥林匹克（IPhO）等顶尖赛事，以其对复杂推理和深度物理理解的高标准，成为检验物理智能对现实认知能力的重要标尺。
在国际物理奥林匹克中，P1-235-A22B在满分30的情况下，获得21.2分，是首个也是唯一获得金牌的开源模型。
在面对一道大气压相关的物理题时，P1给出的4个小问题答案均正确，且过程完全符合评分标准。

为了准确评估物理奥赛的表现，研究团队构建了HiPhO（High School Physics Olympiad）基准测试，这是首个专注于最新物理奥赛、采用人类对齐评估的基准。HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛，评估时采用官方评分标准，对答案和过程进行细粒度评分，与人类评审严格对齐，确保得分准确——由此，每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。
上海AI实验室透露，P1-235B-A22B取得12金1银佳绩，与Gemini-2.5-Pro并列奖牌榜第一，金牌数超越了GPT-5、Grok-4等主流闭源模型。
P1在国际物理奥林匹克、HiPhO基准测试中表现突出，说明模型已初步具备应对现实世界中复杂物理问题的潜力，这一突破为大模型进一步处理复杂推理任务，进而解决科学发现等难题奠定了基础。

P1在HiPhO基准测试上的得分情况
实现物理推理能力持续提升
据介绍，P1在物理推理方面的卓越表现，离不开高质量数据和多阶段强化学习策略。
研究团队通过高效的提取和标注流程，构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程，用于强化学习训练。
新民晚报记者了解到，P1采用多阶段强化学习流程进行训练。为了实现稳定高效的训练，团队在每个阶段应用两项关键策略：一是上下文窗口扩展，随着训练的推进，逐步扩展模型最大生成长度，使模型能够探索更长的推理链；二是通过率过滤，在训练前，基于通过率统计对数据进行筛选，排除过于简单或过于困难的任务。
此外，为了突破单一模型的性能极限，研究团队开发了一套专为物理推理设计的协同进化多智能体系统。它由视觉、逻辑和审核三个交互式模块组成，通过自我验证与反思迭代，实现了物理推理能力的跃升。
如果任一阶段验证失败，详细的错误报告会被发送回逻辑模块，进行反思修订解答。通过这种协同进化协作，系统持续提升大模型对复杂物理问题的推理质量和鲁棒性。
原标题：《AI喜提物理奥赛金牌！来自上海的P1模型，如何开启“封神”之路？》
栏目编辑：马丹
本文作者：新民晚报郜阳
题图东方IC
上海AI实验室

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用