![]()
打开百度APP畅享高清图片
![]()
新民晚报记者今天从上海人工智能实验室获悉,实验室近日在开源“通专融合”方面取得新进展。其P1物理推理模型系列,在通用模型的基础上,通过大规模、多阶段强化学习重点升级了物理专业能力。
其中,P1-235-A22B在2025年国际物理奥林匹克大赛(IPhO)拿下金牌,成为首个也是唯一获得金牌的开源模型;在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,与Gemini-2.5-Pro并列奖牌榜第一。
![]()
P1在IPho 2025中的得分情况
初步具备解决复杂物理问题能力
物理推理是AI理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。
在国际物理奥林匹克中,P1-235-A22B在满分30的情况下,获得21.2分,是首个也是唯一获得金牌的开源模型。
在面对一道大气压相关的物理题时,P1给出的4个小问题答案均正确,且过程完全符合评分标准。
![]()
为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确——由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。
上海AI实验室透露,P1-235B-A22B取得12金1银佳绩,与Gemini-2.5-Pro并列奖牌榜第一,金牌数超越了GPT-5、Grok-4等主流闭源模型。
P1在国际物理奥林匹克、HiPhO基准测试中表现突出,说明模型已初步具备应对现实世界中复杂物理问题的潜力,这一突破为大模型进一步处理复杂推理任务,进而解决科学发现等难题奠定了基础。
![]()
P1在HiPhO基准测试上的得分情况
实现物理推理能力持续提升
据介绍,P1在物理推理方面的卓越表现,离不开高质量数据和多阶段强化学习策略。
研究团队通过高效的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。
新民晚报记者了解到,P1采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:一是上下文窗口扩展,随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链;二是通过率过滤,在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。
此外,为了突破单一模型的性能极限,研究团队开发了一套专为物理推理设计的协同进化多智能体系统。它由视觉、逻辑和审核三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升。
如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,系统持续提升大模型对复杂物理问题的推理质量和鲁棒性。
原标题:《AI喜提物理奥赛金牌!来自上海的P1模型,如何开启“封神”之路?》
栏目编辑:马丹
本文作者:新民晚报 郜阳
题图东方IC
上海AI实验室





京公网安备 11011402013531号