当前位置: 首页 » 资讯 » 新科技 » 正文

DeepSeek登《Nature》封面,梁文锋带队,首次回应争议

IP属地 中国·北京 编辑:郑佳 凤凰网科技 时间:2025-09-18 14:28:00

摘要:

DeepSeek也首次回应“蒸馏”争议。

科技 出品

作者|姜凡

编辑|董雨晴

2025年9月17日,属于中国人工智能的又一个高光时刻来到了。DeepSeek-AI团队梁文锋及其同事在《自然》杂志发表了关于开源模型 DeepSeek-R1 的研究成果,并登上当期封面。

图|来源于网络

论文指出,大语言模型(LLM)的推理能力可以通过纯强化学习显著提升,从而减少对人工标注的依赖。与传统训练方式相比,这一方法培养出的模型在数学解题、编程竞赛以及涉及STEM领域研究生水平的问题上,均展现出更优的表现。

在此,DeepSeek也首次回应“蒸馏”争议,在与审稿人的交流中,DeepSeek明确表示,R1并非通过复制OpenAI模型生成的推理示例来学习。只是和大多数其他大语言模型一样,R1的基础模型是在网络上训练的,因此它会吸收互联网上已有的AI生成的内容。

“低成本奇迹”:从29万美元到世界舞台

在AI世界,有一个残酷的共识:顶尖大模型的门槛,从来不是算法,而是成本。OpenAI训练GPT-4,外界估算其花费在1亿美元以上;谷歌、Anthropic、meta也在数千万美元级别的预算上展开竞赛。资金与算力,成了决定话语权的核心。

然而,DeepSeek打破了这一“潜规则”。根据研究团队在论文补充材料披露的细节,DeepSeek-R1的推理成本仅为29.4万美元,低到惊人。即便加上约600万美元的基础模型训练开销,整体成本依然远低于国外巨头。

DeepSeek-R1的真正突破,不仅体现在成本,更在于方法论上的创新。

研究团队在《Nature》发表的论文中指出,他们采用了纯强化学习(RL)框架,并引入组相对策略优化(GRPO)算法,仅依据最终答案的正确与否给予奖励,而非让模型模仿人类推理路径。

令人意外的是,这种看似“粗放”的训练方式,却让模型在实践中自然涌现出自我反思(reflection)、自我验证(self-verification)以及生成更长推理链条(long chains of thought)等高级行为,有时甚至会生成成百上千个token来反复推敲一个问题。

这一点在数学测试中尤为明显。论文数据显示,在美国数学邀请赛(AIME 2024)中,DeepSeek-R1-Zero的准确率从15.6%跃升至77.9%,在使用自洽解码(self-consistency decoding)后更达到86.7%,超过了人类平均水平。

《Nature》评论称,这表明模型能够在没有人类推理示范的情况下,通过强化学习自主形成复杂的思维模式。

在后续的多阶段优化中(包括RL、拒绝采样、监督微调及二次RL),最终版本的DeepSeek-R1不仅在数学和编程等硬核任务上表现突出,还在写作、问答等通用任务上展现了流畅性和一致性。这意味着,DeepSeek并不是在“教AI思考”,而是在“让AI学会自己思考”。

梁文锋的十年长跑

除了技术层面的突破,DeepSeek-R1的成功背后,更有一段鲜为人知的奋斗故事。梁文锋,1985年出生于广东湛江一个普通家庭,父亲是小学老师。他的成长轨迹虽不为大众熟知,却在细节中显露出早期的求知与坚韧。

2002年,17岁的梁文锋考入浙江大学电子信息工程专业;五年后,他继续攻读信息与通信工程硕士,师从项志宇,专注机器视觉研究。正是在硕士阶段,他与同学尝试将机器学习应用于金融市场,探索全自动量化交易——那一年,全球金融危机正在席卷世界。尽管机会很多,像大疆创始人汪滔曾邀请他共同创业,梁文锋却选择了一条少有人走的路:坚信人工智能将改变世界,他决定独立创业。

硕士毕业后,梁文锋先是将人工智能技术与量化交易结合,创办雅克比投资及幻方科技,并在十余年间稳步发展。直到2023年,他将目光转向通用人工智能,创办DeepSeek,开启了AI大模型研发之路。凭借对算法和成本效率的双重关注,DeepSeek在短短两年内连续发布V2、V3模型,不仅拉低了国产大模型的推理成本,更以惊人的性价比震撼了全球市场。

梁文锋对团队建设的理念同样非同寻常。他坚持“能力为先”,核心岗位多由应届毕业生和经验仅一两年的年轻人组成,“我们或许不是在中国找到前50名顶尖人才,但我们可以自己培养。”这种信念,也正是DeepSeek能够在低成本下实现高推理能力的关键。

现在来看,DeepSeek的这项研究,其价值远不止于一个性能强大的模型。它更像是一份“方法论宣言”,向世界展示了一条不依赖天量标注数据、更具可持续性的AI进化之路。它打破了“资金即壁垒”的魔咒,将AI发展的主动权交还给了科学创新本身。

这不仅仅是中国AI的高光时刻,更是全球AI迈向“推理革命”的一个重要里程碑。Nature审稿人、Hugging Face机器学习工程师Lewis Tunstall认为,“R1开启了一场革命”。越来越多正在应用R1的方法论改善现有的大语言模型。

未来的AI竞争,很可能将从“数据与算力的军备竞赛”,转向“算法与智慧的创新竞赛”。而DeepSeek-R1,已经为这场新竞赛吹响了号角。

标签: 模型 梁文锋 数据 机器 成本 数学 世界 全球 团队 带队 人工智能 人类 核心 算法 论文 争议 项志宇 普通家庭 编程 顶尖 科技 技术 出品 作者 高光 审稿人 封面 经验 算力 能力 语言

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。