当前位置：首页 » 资讯 » 新科技 » 正文

高考数学142分，多学科推理MMMU跑分76.0直逼人类专家，Skywork R1V 3.0用强化学习探索跨学科推理

IP属地中国·北京 编辑：江紫萱硅星人 时间：2025-07-09 12:14:49

作者｜周一笑
邮箱｜ zhouyixiao@pingwest.com
在电影《银翼杀手2049》中，虚拟伴侣Joi能通过全息投影与现实世界无缝互动。她能感知主角K的情绪为他挑选音乐，也能理解K的指令，将自己的形象投放到城市的广告牌上，与他同步体验雨中漫步。她不仅在看和听，更在理解K所处的复杂环境和他的潜在需求，并作出恰当且充满人情味的反应。
这种科幻场景要走入现实，AI需要跨越的，并非只是单纯的数据量或算力。有趣的是，现实中的突破路径和科幻设想有所不同，研究者们发现，真正的关键在于通过GRPO（Group Relative Policy Optimization）这样的强化学习算法，让AI像人类一样通过试错来学习，自己找到整合不同信息的最佳策略。

这种方法恰好针对了当前AI的一个要害，也就是如何让多模态能力从信息拼接升级为真正的融合理解。传统方法就像给AI一本厚厚的说明书，告诉它每种情况的标准答案。而强化学习则更像给了AI一个实验室，让它通过不断尝试来发现规律，当某个推理路径能更好地解决问题时，就给予高分奖励，从而强化这种思考方式。
昆仑万维最新开源的Skywork R1V 3.0，就是这一探索路径下的产物。它最核心的思路，就是借助强化学习，将在数学等领域学到的严谨推理能力，迁移并泛化到物理、化学、医学乃至更广泛的现实世界问题中，试图让AI离那个理想中的Joi更近一步。
目前，昆仑万维已全面开源 Skywork R1V 3.0 的所有资源，旨在推动多模态推理社区的进一步发展：
1. HuggingFace地址：
https://huggingface.co/Skywork/Skywork-R1V3-38B
2. GitHub地址：
https://github.com/SkyworkAI/Skywork-R1V
3. 技术报告：
https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf
1
从“偏科生”到“六边形战士”，寻找能力的平衡点
如何评价一个AI模型的好坏？在今天，只看它在某个单项上跑分有多高，可能已经不够了。更重要的，是看它的能力曲线是否平滑，在面对五花八门的问题时，表现是否足够稳定。
在这方面，R1V 3.0交出了一份很有意思的答卷。它在一个名为MMMU的权威评测上，取得了76.0分的成绩。这个分数距离人类初级专家的平均水平（76.2分）只有一步之遥，同时也超过了一些知名的闭源模型，比如Claude 3.7 Sonnet的75.0分和GPT-4.5的74.4分。
MMMU之所以重要，是因为它不像传统的单科竞赛，更像一场包含理工、人文、医学、艺术等多个领域的“跨学科高考” 。能在这里拿到高分，背后透露出的信息是，这个模型的能力不偏科，知识结构相对均衡。这或许是让AI智能的“锯齿”变得更平滑、更可靠的一种体现。
当然，均衡不代表平庸。在物理、逻辑和数学等更考验硬核推理能力的评测中，它同样拿下了多个开源模型的最佳成绩。

1
硬核理工科，是骡子是马拉出来遛遛
跑分终究是跑分。想知道一个模型是真学霸还是纸老虎，得拉出来实战遛遛。我们直接上题，看看它在不同场景下的真实表现。
在2025年高考数学新一卷的测试中，R1V-3-38B取得了142分的成绩，超越了DouBao-Seed-1.6-Thinking（141分）、Gemini 2.5 Pro 0605（140分）、OpenAI-03-high（136分）和Claude-4-Sonnet-Thinking（128分）等多款闭源模型：

具体的解题效率上，我们向模型展示了一道高考物理选择题，R1V 3.0不仅能给出正确答案，而且明显“想得更快、更明白”了。它的解题思维链比上一代大幅缩短，比如从4千降至7百tokens，推理速度提升了约6倍。
如果说高中题只是开胃菜，那大学的电路分析题就是正餐了。我们给它一道有一定分析深度的英文大学电路理论分析题，它能准确识别题目中“unit ramp”（单位斜坡电压）的含义，严格依据基尔霍夫电压定律列出微分方程，并用积分因子法系统地求解，推导逻辑自洽、过程条理清晰。这证明了它的推理能力确实有深度。
接下来，我们来看一道具有一定分析深度的英语版的大学电路理论分析题。从中可以看出，即便是这样具有挑战性的大学层次题目，R1V 3.0依然能够准确给出解答。
Consider applying a unit ramp voltage source to a series RL circuit as shown in . Compute the voltages $$v_R (t$$ with zero initial condition for L = 0.1H;
1
文史医，AI的“知识盲区”还是“舒适区”？
跳出数理化，在更广阔的知识领域里又如何？我们向模型提问：“在下图中，P波代表___________，QRS段表示___________，T波代表_____________。”

面对心电图，它能头头是道地讲出P波、QRS段和T波各自的生理意义，就像个医学院的学生在做课堂报告。
而面对一位有20年肝硬化病史的患者的CT影像，它也能结合病史和影像学特点，推理出“肝细胞癌”的最可能诊断，并列出其他可能性以供鉴别。

从冰冷的医学影像，切换到充满温度的人文艺术，它也能hold住。它能认出《清明上河图》，并对其艺术风格、历史背景和深远影响进行分析。
还能通过一个唐代女乐俑的服饰、妆容和姿态，准确判断其所属朝代、社会阶层，并结合“墓葬明器”的概念分析其文化意义。
1
生活大冒险，如何应对“非标”难题
最后来看一些更开放、更接近生活的“非标”问题。比如这个高难度的“看图猜地方”游戏：我们要求模型根据一张图片里的建筑、植被、标识牌等线索，推断出其所在的大洲、国家、城市乃至经纬度。R1V 3.0展现出了极强的综合认知能力，通过层层推理，最终成功锁定了地点。

还有一个更生活化的问题：“我买一千瓶这个饮料，中奖的钱的期望是多少？” 。模型需要先通过视觉看懂瓶盖上的中奖规则，再运用数学能力进行概率计算。

而最考验“网感”的梗图理解，它也没掉链子。面对一张涉及人物表情和双关语的梗图（Meme）图片，它能准确识别出其中的幽默感，并解释这种幽默来源于对“models”一词在技术和日常语境中不同含义的误解。

1
通往稳健推理的后训练路径
模型表现这么好，背后用了什么巧妙的技术？Skywork R1V 3.0的技术路径很有意思，它没有依赖海量数据和算力硬堆，而是把重点放在了模型的后训练阶段，更像一场精细的调优。
这条路径始于能力的嫁接与强化。团队基于R1V 2.0做冷启动，让模型一出生就具备不错的多模态推理基础。随后引入GRPO强化学习算法，对模型进行深度激发，让强大的文本推理能力成功嫁接到多模态任务上。值得一提的是，这个过程借助GRPO强化学习算法，实现高效泛化，仅用了约1.2万条高质量监督微调样本和1.3万条强化学习样本，就实现了多学科推理能力的显著提升。

有了初步的能力，如何确保它不是在机械地模仿？为了解决这个问题，团队引入了一套独特的关键熵驱动验证机制。他们发现，真正会推理的模型，在思考的关键节点会表现出较高的不确定性，代表着思维在发散；而只会模仿的模型则非常确定。这个机制就像一个思考质检员，能高效地识别出哪些模型版本是真正学会了推理，而不是在机械地模仿风格。
解决了推理的真伪问题，还有一个挑战是知识的均衡。由于强化学习阶段的训练数据以数学问题为主，模型的能力会有些偏科。为此，团队在强化学习之后，专门引入了一个针对连接器，也就是连接视觉和语言的桥梁，的微调步骤。这一步有效地平衡了模型的知识结构，让它在保持理科优势的同时，也补上了文史、艺术等领域的短板，成了一个更全面的通才。
1
结语
从最开始那个可能看不懂Meme的AI，到最后这个更均衡、更稳健的模型版本，Skywork R1V 3.0的迭代过程，本身就在试图解决当前AI最棘手的几个问题。它证明了，在行业普遍追求更高、更快、更强的同时，通过精细的后训练调优，让AI想得更稳、更可靠，是一条同样重要且可行的路。
这背后是对“可靠性”的追求。尤其在2025年，当AI开始被更严肃地探讨用于医疗诊断、金融合规等高风险领域时，可靠性已经从一个加分项变成了必选项。未来的AI竞争，可能不再只是参数和分数的比拼，更是看谁的系统在关键时刻更值得信赖。一个真正可用的AI，需要具备某种程度的“认知谦逊”：知道自己的能力边界，并在不确定时，懂得把决策交还给人类。
而昆仑万维选择将Skywork R1V 3.0完全开放的做法，本身就体现了这种对可靠性和透明性的追求。实际上，这也不是一次孤立的行动，而是其构建以推理能力为主线的技术体系的一部分，此前他们已陆续开源了Skywork-OR1文本推理模型和SkyReels-V1视频生成模型等多个项目。这种系统性的开源，以及将技术细节、探索发现都展示给社区的做法，让人们能够更好地检验和理解模型，这恰恰是通往信任的关键一步。
归根结底，技术的发展终究要回归到具体的人和具体的问题上，这可能比宏大的叙事要走得更远。

点个爱心，再走吧

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用