DeepSeek 登上最新一期Nature杂志封面!
(Nature)
与此同时,Nature发表 Editorial 文章称,DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型,并称此举“意义重大”,是朝着透明度和可重复性迈出的可喜一步。
他们写道:“依靠独立研究人员进行同行评审,是应对 AI 行业炒作的一种方式。鉴于 AI 已经无处不在,未经验证的言论对社会构成了真正的风险。因此,我们希望更多 AI 公司能够效仿。”
(Nature)
近年来,人工智能,特别是大语言模型,正以惊人的速度和一种近乎“黑箱”的方式发展。
我们熟悉的 ChatGPT、Gemini、Claude、Grok 等主流大模型,他们背后的科技公司通常采用一套不同于学术界的成果发布方式:开直播,在预印本网站arXiv和官方技术博客上发布突破性成果,同时在基准测试排行榜上拿下高分,最后宣布自己具有领先对手的技术优势。
然而,这种模式缺乏传统科学领域的核心要素:严格、独立的同行评审。
今天,DeepSeek 在Nature上发表的论文,则打破了这一惯例。
图 | DeepSeek 论文(Nature)
实际上,这篇关于 DeepSeek-R1 的论文早在今年 1 月就以预印本的形式发表在arXiv上。
Nature介绍,不同于预印本,权威期刊的同行评审并非单向信息流,而是外部专家可以在由独立第三方(编辑)监督和管理的协作流程中提出问题并请求更多信息。
在正式发表前,论文通过了 8 名评审的审查,并在他们的反馈下修改、完善、补充了许多重要的技术内容。论文的清晰度、可信度和完整度都得到了进一步提高。
(Nature)
接下来我们就来看看这篇论文主要讲了什么。
通常来说,提升大语言模型推理能力有两种主要途径:一是在预训练阶段通过大规模计算资源实现,二是通过思维链(CoT,Chain-of-Thought)等提示技术,利用设计好的样本示例或“让我们一步步思考”这样的提示词来引导模型产生中间推理步骤。
但这类方法过度依赖人工标注的推理示例,成本高昂、扩展性差,还引入了人类认知偏见。
更重要的是,人类示例是否可能限制模型的探索策略,使其难以发现更优的、非人类的推理路径?
在这篇题为“DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning”的论文中,DeepSeek 团队提出并验证了一种鼓励模型产生复杂推理能力的创新方法。
该方法以纯粹的强化学习(RL,Reinforcement Learning)为核心,显著区别于传统训练范式,摆脱了对人工标注推理轨迹的依赖。
他们的核心思路是,完全跳过监督微调,只用强化学习优化最终结果的正确性,让模型在无任何人工示范的环境中自发演化推理策略。
DeepSeek 团队选择了 DeepSeek-V3-base 作为基础模型,并采用群体相对策略优化(GRPO,Group Relative Policy Optimization)作为强化学习框架。训练过程中,仅对模型最终答案的正确性进行奖励,不对推理过程进行显式约束。
图 | 群体相对策略优化算法的示意图(DeepSeek)
群体相对策略优化算法可以降低计算开销。其核心思想是:对于每个输入问题,先使用旧策略采样一组响应,然后对这组响应评估奖励(通常是回答正确与否)。基于这组奖励计算优势函数,并对策略参数进行梯度更新。
换言之,GRPO 为每个问题形成一个奖励群组,通过提升高评分答案的出现概率来优化模型。相比普通策略梯度算法,群体相对策略优化不需要单独训练一个同等规模的评估器,而是直接利用结果集的平均或中位数等统计量作为基线。
他们观察到,通过这种纯强化学习方法,模型自然发展出了多样化且复杂的推理行为。
在解决推理问题时,由此诞生的 DeepSeek-R1-Zero 倾向于生成更长的回答,在每个回答中融入验证、反思和探索替代方案的过程。尽管研究人员并未明确告诉模型何为推理,也没有任何监督微调(SFT,Supervised Fine-Tuning)作为初始步骤,但模型仍然成功学会了推理策略。
训练过程中,DeepSeek 团队还发现了一个有趣现象:模型出现了“顿悟时刻”。
(DeepSeek)
在某个时刻,DeepSeek-R1-Zero 突然增加了反思过程中“等一下”的使用频率,似乎出现了自我进化。
同时,它开始自发地在面对难题时分配更多的推理时间,生成更长的思维链,并重新评估和修正其最初的解题思路。
不过,虽然 DeepSeek-R1-Zero 展现出了强大的推理能力,但它也存在可读性差、语言混用等问题,且在写作和开放域问答等任务上表现较差。
为了解决这些挑战,他们开发了 DeepSeek-R1,采用了整合拒绝采样、强化学习和监督微调的多阶段学习框架,使模型既保留了推理能力,又能在非推理任务上表现出色。
虽然前文提到不用监督微调也可以学会推理,但实践表明,加入少量冷启动数据可进一步提升迭代推理模型的效果。
图 | DeepSeek-R1 的多阶段训练流程(DeepSeek)
因此,在多阶段训练的初始阶段,DeepSeek 团队收集了数千个冷启动数据,展示了对话式、人类对齐的思维过程。随后应用强化学习训练,通过对话思维过程和语言一致性来改善模型性能。
接下来他们使用了拒绝采样和监督微调,将推理和非推理数据集纳入监督微调过程,使模型掌握了不错的写作能力。
为了进一步使模型与人类偏好保持一致,他们还采用了第二阶段强化学习,提高模型的可用性和无害性,同时继续完善其推理能力。
最终,DeepSeek-R1 在多个主流基准测试上表现出色,包括 MMLU、GPQA Diamond、SimpleQA、SWE-bench Verified、AIME 2024 等,其性能得到了验证。
一个典型的例子是,随着强化学习训练的不断进行,在 AIME 2024 数学竞赛基准上的表现,DeepSeek-R1-Zero 的 Pass@1 得分从 15.6% 提升至 71.0%,最终的 DeepSeek-R1 模型则实现了与 OpenAI-o1-1217 相当的性能。
(DeepSeek)
最后,我们看到发表在Nature上的论文比预印本包含更多的技术细节和内容,这离不开同行评审的贡献。
例如评审指出,群体相对策略优化对于 DeepSeek 的创新方法十分重要,应该更详细地描述该算法;使用未受推理轨迹数据污染的基础模型进行实验,可以让实验结果更令人信服;论文中关于模型安全的描述过于宽泛、绝对,应当进行更多的安全评估且用词更加严谨。
针对这些问题,DeepSeek 做出了详细回应,包括新增多个附录内容、利用未受推理影响的 Qwen2-7B 进行实验等等。
(DeepSeek)
可以说,DeepSeek-R1 论文发表在Nature上,除了肯定其学术价值外,还开创了一个意义重大的先例。
这意味着,AI 基础模型研究正从一个以技术博客和基准测试分数为主要评价标准的领域,迈向以方法论的科学性、可复现性和严谨验证为核心的成熟学科。
参考资料:
https://www.nature.com/articles/s41586-025-09422-z
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf
https://www.nature.com/articles/d41586-025-02979-9
https://www.nature.com/articles/d41586-025-02703-7
排版:刘雅坤