训练过程中,DeepSeek-R1-Zero展现出令人惊叹的自我进化能力,学会了生成数百到数千个推理token,深入探索和完善思维过程,还发展出反思能力和探索不同解题方法的能力。先进行冷启动SFT,人工筛选高…
一个典型的例子是,随着强化学习训练的不断进行,在 AIME 2024 数学竞赛基准上的表现,DeepSeek-R1-Zero 的 Pass@1得分从 15.6% 提升至 71.0%,最终的 DeepSee…
实验表明,Parallel-R1 不仅在多个数学基准上带来高达 8.4% 的平均准确率提升,更通过一种 “中程训练脚手架” 的策略,在AIME25 测试中实现了 42.9% 的性能飞跃。 第二阶段(能力泛…
IT之家 9 月 18 日消息,在 9 月 17 日第 22 届中国 —东盟博览会开幕式上,来自讯飞同传的技术支撑,让中文、英语、泰语、越南语、缅甸语、马来语、印尼语同步在大屏上实时滚动翻译。 当天下午,在…
IT之家 9 月 17 日消息,腾讯混元今晚通过官方公众号发文介绍,其生图团队在 9 月 10 日发布了新研究SRPO,主要提供文生图模型的强化算法,解决开源文生图模型 Flux 的皮肤质感“过油”问题,让…
直到今年尤其最近一波开源潮掀起以来,AI 音频领域又热闹了起来,包括字节 MegaTTS3、阿里 Qwen2.5-Omni-7B 和CosyVoice 3、月之暗面 Kimi-Audio、阶跃星辰 Ste…
08/20 10:25
08/20 10:24
08/20 10:23
08/20 10:22