今天分享的是:字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告(英文版)
报告共计:19页
Seed1.5-Thinking技术报告总结
字节跳动推出的Seed1.5-Thinking是一款具备卓越推理能力的混合专家模型(MoE),其激活参数为200亿,总参数达2000亿。该模型在多个基准测试中表现优异,如AIME 2024获得86.7分,Codeforces取得55.0分,GPQA为77.3分,在STEM和编程领域展现出强大实力,同时在非推理任务上也有出色的泛化能力,相较于DeepSeek R1,胜率高出8%。
在模型开发方面,数据、强化学习(RL)算法和RL基础设施是三个关键要点。数据上,监督微调(SFT)依赖链式思维(CoT)数据,过多非CoT数据会降低模型探索能力;RL训练数据包含STEM问题、代码任务等四类,其中数学数据泛化能力强,能广泛提升各任务性能。
RL算法上,模型训练存在不稳定性,而团队研发的VAPO和DAPO框架分别针对演员-评论家及策略梯度范式,解决了这一问题,保障了训练的稳健性。
RL基础设施采用混合引擎架构, Streaming Rollout System(SRS)能缓解长响应生成中的滞后问题,结合多种并行机制和内存优化策略,提升了训练效率与可扩展性。
评估结果显示,Seed1.5-Thinking在数学推理的AIME 2024中与OpenAI的o3-mini-high持平,但在AIME 2025和BeyondAIME仍有差距;在科学领域GPQA接近o3水平;编程方面接近Gemini 2.5 Pro;逻辑推理的ARC-AGI上表现突出。人类评估中,其在非推理场景的整体胜率超DeepSeek R1 8.0%,更贴合人类偏好。
未来,团队计划探索更高效的强化学习方法,挑战更复杂任务,并研究通用奖励建模,以进一步提升模型智能边界。同时,还将公开BeyondAIME和Codeforces等内部基准,助力相关领域研究。
以下为报告节选内容