训练过程中,DeepSeek-R1-Zero展现出令人惊叹的自我进化能力,学会了生成数百到数千个推理token,深入探索和完善思维过程,还发展出反思能力和探索不同解题方法的能力。先进行冷启动SFT,人工筛选高…
29万美元的成本奇迹
一个典型的例子是,随着强化学习训练的不断进行,在 AIME 2024 数学竞赛基准上的表现,DeepSeek-R1-Zero 的 Pass@1得分从 15.6% 提升至 71.0%,最终的 DeepSee…
梁文锋团队正面回应蒸馏质疑、发布详尽安全报告
每周7亿人都在如何用ChatGPT?OpenAI最全报告来了
创始人是ICML'25时间检验奖作者。
一夜刷屏!27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
总的来说,MSL这篇新论文的核心思想是通过一种LanguageSelf-Play(LSP)的方法,让大型语言模型在没有额外训练数据的情况下实现自我提升。 为了将这个博弈转化成模型强化学习的过程,研究中采用…
其中,在自然语言转SQL(NL2SQL)领域,腾讯云与复旦大学合作提出的SQL修正框架“REDSQL”技术,可有效解决大语言模型在NL2SQL任务中易出错的问题,显著提升查询准确性和实用性,为“聊天式数据分析…
一次组织重组+评测范式重构,也许正在改写AI的能力边界与产品形态。
AI一本正经地胡说八道,原来是我们教的。
模型被训练成“装作知道”,而不是坦率地说“我不确定”。
08/20 10:25
08/20 10:24
08/20 10:23
08/20 10:22