当前位置: 首页 » 资讯 » 新科技 » 正文

高考数学142分,多学科推理MMMU跑分76.0直逼人类专家,Skywork R1V 3.0用强化学习探索跨学科推理

IP属地 中国·北京 编辑:江紫萱 硅星人 时间:2025-07-09 12:14:49


作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

在电影《银翼杀手2049》中,虚拟伴侣Joi能通过全息投影与现实世界无缝互动。她能感知主角K的情绪为他挑选音乐,也能理解K的指令,将自己的形象投放到城市的广告牌上,与他同步体验雨中漫步。她不仅在看和听,更在理解K所处的复杂环境和他的潜在需求,并作出恰当且充满人情味的反应。

这种科幻场景要走入现实,AI需要跨越的,并非只是单纯的数据量或算力。有趣的是,现实中的突破路径和科幻设想有所不同,研究者们发现,真正的关键在于通过GRPO(Group Relative Policy Optimization)这样的强化学习算法,让AI像人类一样通过试错来学习,自己找到整合不同信息的最佳策略。


这种方法恰好针对了当前AI的一个要害,也就是如何让多模态能力从信息拼接升级为真正的融合理解。传统方法就像给AI一本厚厚的说明书,告诉它每种情况的标准答案。而强化学习则更像给了AI一个实验室,让它通过不断尝试来发现规律,当某个推理路径能更好地解决问题时,就给予高分奖励,从而强化这种思考方式。

昆仑万维最新开源的Skywork R1V 3.0,就是这一探索路径下的产物。它最核心的思路,就是借助强化学习,将在数学等领域学到的严谨推理能力,迁移并泛化到物理、化学、医学乃至更广泛的现实世界问题中,试图让AI离那个理想中的Joi更近一步。

目前,昆仑万维已全面开源 Skywork R1V 3.0 的所有资源,旨在推动多模态推理社区的进一步发展:

1. HuggingFace地址:

https://huggingface.co/Skywork/Skywork-R1V3-38B

2. GitHub地址:

https://github.com/SkyworkAI/Skywork-R1V

3. 技术报告:

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf

1

从“偏科生”到“六边形战士”,寻找能力的平衡点

如何评价一个AI模型的好坏?在今天,只看它在某个单项上跑分有多高,可能已经不够了。更重要的,是看它的能力曲线是否平滑,在面对五花八门的问题时,表现是否足够稳定。

在这方面,R1V 3.0交出了一份很有意思的答卷。它在一个名为MMMU的权威评测上,取得了76.0分的成绩 。这个分数距离人类初级专家的平均水平(76.2分)只有一步之遥 ,同时也超过了一些知名的闭源模型,比如Claude 3.7 Sonnet的75.0分和GPT-4.5的74.4分 。

MMMU之所以重要,是因为它不像传统的单科竞赛,更像一场包含理工、人文、医学、艺术等多个领域的“跨学科高考” 。能在这里拿到高分,背后透露出的信息是,这个模型的能力不偏科,知识结构相对均衡。这或许是让AI智能的“锯齿”变得更平滑、更可靠的一种体现。

当然,均衡不代表平庸。在物理、逻辑和数学等更考验硬核推理能力的评测中,它同样拿下了多个开源模型的最佳成绩 。



1

硬核理工科,是骡子是马拉出来遛遛

跑分终究是跑分。想知道一个模型是真学霸还是纸老虎,得拉出来实战遛遛。我们直接上题,看看它在不同场景下的真实表现。

在2025年高考数学新一卷的测试中,R1V-3-38B取得了142分的成绩 ,超越了DouBao-Seed-1.6-Thinking(141分) 、Gemini 2.5 Pro 0605(140分) 、OpenAI-03-high(136分) 和Claude-4-Sonnet-Thinking(128分) 等多款闭源模型:


具体的解题效率上,我们向模型展示了一道高考物理选择题,R1V 3.0不仅能给出正确答案,而且明显“想得更快、更明白”了。它的解题思维链比上一代大幅缩短,比如从4千降至7百tokens,推理速度提升了约6倍。

如果说高中题只是开胃菜,那大学的电路分析题就是正餐了。我们给它一道有一定分析深度的英文大学电路理论分析题 ,它能准确识别题目中“unit ramp”(单位斜坡电压)的含义,严格依据基尔霍夫电压定律列出微分方程,并用积分因子法系统地求解,推导逻辑自洽、过程条理清晰 。这证明了它的推理能力确实有深度。

接下来,我们来看一道具有一定分析深度的英语版的大学电路理论分析题。从中可以看出,即便是这样具有挑战性的大学层次题目,R1V 3.0依然能够准确给出解答。

Consider applying a unit ramp voltage source to a series RL circuit as shown in . Compute the voltages $$v_R (t$$ with zero initial condition for L = 0.1H;

1

文史医,AI的“知识盲区”还是“舒适区”?

跳出数理化,在更广阔的知识领域里又如何?我们向模型提问:“在下图中,P波代表___________,QRS段表示___________,T波代表_____________。”


面对心电图,它能头头是道地讲出P波、QRS段和T波各自的生理意义,就像个医学院的学生在做课堂报告 。

而面对一位有20年肝硬化病史的患者的CT影像,它也能结合病史和影像学特点,推理出“肝细胞癌”的最可能诊断,并列出其他可能性以供鉴别 。


从冰冷的医学影像,切换到充满温度的人文艺术,它也能hold住。它能认出《清明上河图》,并对其艺术风格、历史背景和深远影响进行分析 。

还能通过一个唐代女乐俑的服饰、妆容和姿态,准确判断其所属朝代、社会阶层,并结合“墓葬明器”的概念分析其文化意义 。

1

生活大冒险,如何应对“非标”难题

最后来看一些更开放、更接近生活的“非标”问题。比如这个高难度的“看图猜地方”游戏:我们要求模型根据一张图片里的建筑、植被、标识牌等线索,推断出其所在的大洲、国家、城市乃至经纬度 。R1V 3.0展现出了极强的综合认知能力,通过层层推理,最终成功锁定了地点 。


还有一个更生活化的问题:“我买一千瓶这个饮料,中奖的钱的期望是多少?” 。模型需要先通过视觉看懂瓶盖上的中奖规则,再运用数学能力进行概率计算 。


而最考验“网感”的梗图理解,它也没掉链子。面对一张涉及人物表情和双关语的梗图(Meme)图片,它能准确识别出其中的幽默感,并解释这种幽默来源于对“models”一词在技术和日常语境中不同含义的误解 。


1

通往稳健推理的后训练路径

模型表现这么好,背后用了什么巧妙的技术?Skywork R1V 3.0的技术路径很有意思,它没有依赖海量数据和算力硬堆,而是把重点放在了模型的后训练阶段,更像一场精细的调优 。

这条路径始于能力的嫁接与强化。团队基于R1V 2.0做冷启动,让模型一出生就具备不错的多模态推理基础 。随后引入GRPO强化学习算法,对模型进行深度激发,让强大的文本推理能力成功嫁接到多模态任务上 。值得一提的是,这个过程借助GRPO强化学习算法,实现高效泛化,仅用了约1.2万条高质量监督微调样本和1.3万条强化学习样本,就实现了多学科推理能力的显著提升 。


有了初步的能力,如何确保它不是在机械地模仿?为了解决这个问题,团队引入了一套独特的关键熵驱动验证机制。他们发现,真正会推理的模型,在思考的关键节点会表现出较高的不确定性,代表着思维在发散;而只会模仿的模型则非常确定 。这个机制就像一个思考质检员,能高效地识别出哪些模型版本是真正学会了推理,而不是在机械地模仿风格 。

解决了推理的真伪问题,还有一个挑战是知识的均衡。由于强化学习阶段的训练数据以数学问题为主,模型的能力会有些偏科 。为此,团队在强化学习之后,专门引入了一个针对连接器,也就是连接视觉和语言的桥梁,的微调步骤 。这一步有效地平衡了模型的知识结构,让它在保持理科优势的同时,也补上了文史、艺术等领域的短板,成了一个更全面的通才 。

1

结语

从最开始那个可能看不懂Meme的AI,到最后这个更均衡、更稳健的模型版本,Skywork R1V 3.0的迭代过程,本身就在试图解决当前AI最棘手的几个问题。它证明了,在行业普遍追求更高、更快、更强的同时,通过精细的后训练调优,让AI想得更稳、更可靠,是一条同样重要且可行的路。

这背后是对“可靠性”的追求。尤其在2025年,当AI开始被更严肃地探讨用于医疗诊断、金融合规等高风险领域时,可靠性已经从一个加分项变成了必选项。未来的AI竞争,可能不再只是参数和分数的比拼,更是看谁的系统在关键时刻更值得信赖。一个真正可用的AI,需要具备某种程度的“认知谦逊”:知道自己的能力边界,并在不确定时,懂得把决策交还给人类。

而昆仑万维选择将Skywork R1V 3.0完全开放的做法,本身就体现了这种对可靠性和透明性的追求。实际上,这也不是一次孤立的行动,而是其构建以推理能力为主线的技术体系的一部分,此前他们已陆续开源了Skywork-OR1文本推理模型和SkyReels-V1视频生成模型等多个项目。这种系统性的开源,以及将技术细节、探索发现都展示给社区的做法,让人们能够更好地检验和理解模型,这恰恰是通往信任的关键一步。

归根结底,技术的发展终究要回归到具体的人和具体的问题上,这可能比宏大的叙事要走得更远。


点个爱心,再走 吧

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。