当前位置: 首页 » 资讯 » 新科技 » 正文

字节跳动Seed-Thinking-v1.5:2000亿参数模型,推理能力再突破!

IP属地 中国·北京 编辑:顾雨柔 ITBEAR 时间:2025-08-22 20:29:11

字节跳动近期发布了一份名为Seed-Thinking-v1.5的技术报告英文版,详细阐述了其最新研发的一款混合专家模型。这款名为Seed1.5-Thinking的模型,凭借200亿激活参数和总计2000亿参数的强大配置,在多个基准测试中展现出了卓越的推理能力。

在AIME 2024、Codeforces以及GPQA等测试中,Seed1.5-Thinking分别获得了86.7分、55.0分和77.3分的优异成绩。特别是在STEM和编程领域,该模型展现出了强大的实力。同时,在非推理任务上,Seed1.5-Thinking也表现出了出色的泛化能力,与DeepSeek R1相比,胜率高出了8%。

在模型开发过程中,数据、强化学习算法以及强化学习基础设施被视为三大核心要素。在数据方面,监督微调(SFT)主要依赖于链式思维(CoT)数据。然而,过多的非CoT数据可能会对模型的探索能力产生负面影响。强化学习训练数据则涵盖了STEM问题、代码任务等四大类,其中数学数据因其强大的泛化能力,能够广泛提升模型在各任务中的性能。

在强化学习算法层面,团队研发了VAPO和DAPO两大框架,分别针对演员-评论家及策略梯度范式,有效解决了模型训练中的不稳定性问题,确保了训练的稳健进行。强化学习基础设施采用了混合引擎架构,Streaming Rollout System(SRS)的引入,有效缓解了长响应生成中的滞后问题。结合多种并行机制和内存优化策略,训练效率和可扩展性得到了显著提升。

评估结果显示,在数学推理领域,Seed1.5-Thinking在AIME 2024中的表现与OpenAI的o3-mini-high不相上下。然而,在AIME 2025和BeyondAIME等更高难度的测试中,仍存在一定的差距。在科学领域的GPQA测试中,该模型的表现接近o3水平;在编程方面,则与Gemini 2.5 Pro不相上下。在逻辑推理的ARC-AGI测试中,Seed1.5-Thinking展现出了突出的表现。

在人类评估中,Seed1.5-Thinking在非推理场景的整体胜率超过了DeepSeek R1 8.0%,且更贴合人类偏好。这一结果表明,该模型在提升智能水平的同时,也注重了与人类思维方式的契合度。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。