当前位置: 首页 » 资讯 » 新科技 » 正文

字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告

IP属地 中国·北京 编辑:江紫萱 余军羡 时间:2025-08-22 16:17:55

今天分享的是:字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告(英文版)

报告共计:19页

Seed1.5-Thinking技术报告总结

字节跳动推出的Seed1.5-Thinking是一款具备卓越推理能力的混合专家模型(MoE),其激活参数为200亿,总参数达2000亿。该模型在多个基准测试中表现优异,如AIME 2024获得86.7分,Codeforces取得55.0分,GPQA为77.3分,在STEM和编程领域展现出强大实力,同时在非推理任务上也有出色的泛化能力,相较于DeepSeek R1,胜率高出8%。

在模型开发方面,数据、强化学习(RL)算法和RL基础设施是三个关键要点。数据上,监督微调(SFT)依赖链式思维(CoT)数据,过多非CoT数据会降低模型探索能力;RL训练数据包含STEM问题、代码任务等四类,其中数学数据泛化能力强,能广泛提升各任务性能。

RL算法上,模型训练存在不稳定性,而团队研发的VAPO和DAPO框架分别针对演员-评论家及策略梯度范式,解决了这一问题,保障了训练的稳健性。

RL基础设施采用混合引擎架构, Streaming Rollout System(SRS)能缓解长响应生成中的滞后问题,结合多种并行机制和内存优化策略,提升了训练效率与可扩展性。

评估结果显示,Seed1.5-Thinking在数学推理的AIME 2024中与OpenAI的o3-mini-high持平,但在AIME 2025和BeyondAIME仍有差距;在科学领域GPQA接近o3水平;编程方面接近Gemini 2.5 Pro;逻辑推理的ARC-AGI上表现突出。人类评估中,其在非推理场景的整体胜率超DeepSeek R1 8.0%,更贴合人类偏好。

未来,团队计划探索更高效的强化学习方法,挑战更复杂任务,并研究通用奖励建模,以进一步提升模型智能边界。同时,还将公开BeyondAIME和Codeforces等内部基准,助力相关领域研究。

以下为报告节选内容

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。