当前位置：首页 » 资讯 » 新科技 » 正文

刚刚，梁文锋发Nature了！

IP属地中国·北京 智东西 时间：2025-09-18 10:27:37

智东西
作者陈骏达
编辑李水青
昨晚，DeepSeek再度开创历史！
智东西9月18日报道，9月17日，由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上了国际权威期刊《自然（Nature）》的封面。
DeepSeek-R1论文首次公开了仅靠强化学习，就能激发大模型推理能力的重要研究成果，启发全球AI研究者；这一模型还成为全球最受欢迎的开源推理模型，Hugging Face下载量超1090万次。此番获得《自然》的认证，可谓是实至名归。
与此同时，DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。《自然》在社论中高度评价道：几乎所有主流的大模型都还没有经过独立同行评审，这一空白“终于被DeepSeek打破”。
《自然》认为，在AI行业中，未经证实的说法和炒作已经“司空见惯”，而DeepSeek所做的一切，都是“迈向透明度和可重复性的可喜一步”。

▲《自然》杂志封面标题：自助——强化学习教会大模型自我改进
发表在《自然》杂志的新版DeepSeek-R1论文，与今年1月未经同行评审的初版有较大差异，披露了更多模型训练的细节，并正面回应了模型发布之初的蒸馏质疑。

▲发表在《自然》杂志的DeepSeek-R1论文
在长达64页的同行评审文件中，DeepSeek介绍，DeepSeek-V3 base（DeepSeek-R1的基座模型）使用的数据全部来自互联网，虽然可能包含GPT-4生成的结果，但绝非有意而为之，更没有专门的蒸馏环节。
DeepSeek也在补充材料中提供了训练过程中减轻数据污染的详细流程，以证明模型并未在训练数据中有意包含基准测试，从而提升模型表现。
此外，DeepSeek对DeepSeek-R1的安全性进行了全面评估，证明其安全性领先同期发布的前沿模型。
《自然》杂志认为，随着AI技术日渐普及，大模型厂商们无法验证的宣传可能对社会带来真实风险。依靠独立研究人员进行的同行评审，是抑制AI行业过度炒作的一种有效方式。
论文链接：
https://www.nature.com/articles/s41586-025-09422-zMOESM2
补充材料：
https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf
一、新版论文披露多个重要信息，R1安全性获全面评估
在了解新版论文的变化前，我们有必要先回顾下DeepSeek-R1论文的核心内容。
DeepSeek-R1的研究出发点，是当时困扰AI业内的一个重大问题。众所周知，推理能提升大语言模型的能力，但让模型在后训练阶段通过数据学习思维链轨迹，严重依赖人工标注，限制了可扩展性。
DeepSeek尝试通过强化学习，让模型自我演化发展出推理能力。在DeepSeek-V3 base的基础上，DeepSeek使用GRPO作为强化学习框架，仅使用最终预测结果与真实答案的正确性作为奖励信号，未对推理过程施加限制，最终构建出DeepSeek-R1-Zero。
DeepSeek-R1-Zero通过强化学习成功掌握了改进的推理策略，倾向于生成更长的回答，每个回答中包含验证、反思和探索备选方案。

▲DeepSeek-R1-Zero答题正确率随着推理长度提升，模型训练中总体回答长度也不断提升
DeepSeek在DeepSeek-R1-Zero的基础上，采用多阶段训练结合RL、拒绝采样和监督微调，开发出DeepSeek-R1，使模型既具备强推理能力，又能更好贴合人类偏好。此外，团队还蒸馏出小型模型并公开发布，为研究社区提供了可用资源，推动思维链推理模型的发展与应用。
除了上述主要科研成果外，在最新版的论文和其他材料中，DeepSeek新增了不少补充信息，让外界更深入地了解到模型训练和运作的细节。
基准测试数据污染是一个极为敏感的问题——如果厂商在训练时有意或无意包含了基准测试和相关答案，就很有可能导致模型在相关测试上的得分异常偏高，影响基准测试评分的公正性。
DeepSeek透露，为了防止基准测试数据污染，其已对DeepSeek-R1的预训练和后训练数据都实施了全面的去污染措施。以数学领域为例，仅在预训练数据中，DeepSeek的去污染流程就识别并删除了约六百万条潜在文本。
在后训练阶段，数学相关的数据均来自2023年之前的竞赛，并采用与预训练相同的过滤策略，确保训练数据与评测数据完全不重叠。这些措施保证了模型评测结果能够真实反映其解决问题的能力，而非对测试数据的记忆。
不过，DeepSeek也承认这种去污染方法无法完全防止对测试集的改写，因此在2024年之前发布的部分基准测试仍可能存在污染问题。
DeepSeek还为DeepSeek-R1新增了一份全面的安全报告。报告提到，DeepSeek-R1在服务部署中引入了外部风险控制系统，不仅可以基于关键词匹配识别不安全对话，还使用DeepSeek-V3直接进行风险审查，判断是否应拒绝响应。DeepSeek建议开发者在使用DeepSeek-R1时，部署类似的风险控制系统。
在公开安全基准测试和内部安全研究中，DeepSeek-R1在大多数基准上超过了Claude-3.7-Sonnet、GPT-4o等前沿模型。开源部署版本的安全性虽不及具备外部风险控制系统的版本，但仍拥有中等水平的安全保障。

DeepSeek-R1发布之初，曾有传闻称该模型使用了OpenAI的模型进行蒸馏，这也出现在审稿人的提问中。
对此，DeepSeek做出了正面回应，称DeepSeek-V3-base的预训练数据全部来源于网络，反映自然数据分布，“可能包含由先进模型（如GPT-4）生成的内容”，但DeepSeek-V3-base并没有引入在合成数据集上进行大规模监督蒸馏的“冷却”阶段。
DeepSeek-V3-base的数据截止时间为2024年7月，当时尚未发布任何公开的先进推理模型，这进一步降低了从现有推理模型中无意蒸馏的可能性。
更重要的是，DeepSeek-R1论文的核心贡献，也就是R1-Zero，不涉及从先进模型进行蒸馏。其强化学习（RL）组件是独立训练的，不依赖于GPT-4或其他类似能力模型的输出或指导。
二、R1论文开创大模型科研新范式，《自然》盛赞其填补空白
在社论中，《自然》详细地分析了DeepSeek-R1经历完整同行评审流程，并登上期刊的价值。
大模型正在迅速改变人类获取知识的方式，然而，目前最主流的大模型都没有在研究期刊中经历过独立的同行评审，这是一个严重的空白。
同行评审出版物有助于阐明大模型的工作原理，也有助于业内评估大模型的表现是否与厂商宣传的一致。
DeepSeek改变了这一现状。DeepSeek在今年2月14日将DeepSeek-R1论文提交至《自然》，而直到7月17日才被接收，9月17日正式发布。
在这一过程中，有8位外部专家参与了同行评审，对这项工作的原创性、方法和鲁棒性进行了评估。在最终发布的版本中，审稿报告与作者回复都被一并披露。
智东西也深入研读了DeepSeek-R1论文的审稿意见与作者回复。这份文件长达64页，接近论文本身篇幅的3倍。

▲DeepSeek同行评审材料封面
8位审稿人共提出上百条具体意见，既包括对单词单复数等细节的修改，也涵盖对论文中将AI“拟人化”的警示，以及对数据污染和模型安全性问题的关注。
例如，在下方修改意见中，审稿人敏锐地捕捉到了“将DeepSeek-R1-Zero开源”这一表述的模糊性，并提醒DeepSeek，“开源”这一概念的界定仍存争议，在使用相关表述时需要格外注意。
这位审稿人还要求DeepSeek在论文中附上SFT和RL数据的链接，而不仅仅是提供数据样本。

▲一位审稿人的部分修改意见
DeepSeek认真回应了审稿人提出的每一个问题，前文提到的多个章节与补充信息，正是在审稿人的建议下新增的。
虽然DeepSeek也曾在今年1月发布DeepSeek-R1的技术报告，但《自然》认为，此类技术文档与实际情况之间的差距可能很大。
相比之下，在同行评审中，外部专家并不是被动接收信息，而是能够在独立第三方（编辑）的主持和管理下，通过协作提出问题，并要求论文作者补充信息。
同行评审能够提升论文的清晰度，并确保作者对其主张作出合理的论证。这一流程并不一定会对文章内容带来重大修改，但却能增强研究的可信度。对AI开发者而言，这意味着他们的工作会更为扎实，并更具说服力。
结语：DeepSeek开源模式或成行业典范
作为国产开源 AI 模型走向世界的代表，DeepSeek-R1在全球开源社区拥有极高的口碑。而在本次登上《自然》杂志封面后，DeepSeek又补充了这一模型的更多信息，为开源社区提供了科研参考、模型复现思路以及应用支持。
《自然》杂志呼吁更多的AI公司将其模型提交给同行进行评审，确保其声明经过验证和澄清。在这一背景下，DeepSeek的开源模式不仅展示了国产AI的技术实力，也有望成为全球AI行业在科研透明度方面的参考典范。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

封面智库会员定制焕新而来

苏州小程序开发公司精选推荐：技术、口碑、价格全对比，附避坑指南

构建MaaS生态推动服务升级方舟健客获评“互联网业务创新标杆案例”

【时政】施小琳会见科大讯飞公司董事长刘庆峰

百度大楼深夜灯火通明！百度“O计划”到底有多重磅？

华为诺亚实验室：非平滑组件提升Vision Transformer学习效率

全站最新

封面智库会员定制焕新而来

苏州小程序开发公司精选推荐：技术、口碑、价格全对比，附避坑指南

构建MaaS生态推动服务升级方舟健客获评“互联网业务创新标杆案例”

【时政】施小琳会见科大讯飞公司董事长刘庆峰

热门推荐

封面智库会员定制焕新而来

苏州小程序开发公司精选推荐：技术、口碑、价格全对比，附避坑指南

构建MaaS生态推动服务升级方舟健客获评“互联网业务创新标杆案例”

【时政】施小琳会见科大讯飞公司董事长刘庆峰

百度大楼深夜灯火通明！百度“O计划”到底有多重磅？

华为诺亚实验室：非平滑组件提升Vision Transformer学习效率

蔡崇信详解阿里往事：初期月薪仅500元、多次拒绝微软收购

坐拥华为旗舰技术被京东选为最强“科技年货”:这个品牌凭什么？

初代小米SU7正式停产

阿里达摩院开源具身大脑基模RynnBrain 机器人首次拥有时空记忆

字节跳动，又甩出一张王炸！

大算力+大模型，光合组织启动联合攻关

互联网医院系统是一种新型医疗服务模式

字节Seedance 2.0火了！海外博主锐评：一周前我还在看好可灵…

暗战打响！百度临近春节秘密启动“O计划” 内部人士：与百度App有关