当前位置：首页 » 资讯 » 新科技 » 正文

字节跳动：2025年思考模型Seed-Thinking-v1.5技术报告

IP属地中国·北京 编辑：江紫萱余军羡 时间：2025-08-22 16:17:55

今天分享的是：字节跳动：2025年思考模型Seed-Thinking-v1.5技术报告（英文版）
报告共计：19页
Seed1.5-Thinking技术报告总结
字节跳动推出的Seed1.5-Thinking是一款具备卓越推理能力的混合专家模型（MoE），其激活参数为200亿，总参数达2000亿。该模型在多个基准测试中表现优异，如AIME 2024获得86.7分，Codeforces取得55.0分，GPQA为77.3分，在STEM和编程领域展现出强大实力，同时在非推理任务上也有出色的泛化能力，相较于DeepSeek R1，胜率高出8%。
在模型开发方面，数据、强化学习（RL）算法和RL基础设施是三个关键要点。数据上，监督微调（SFT）依赖链式思维（CoT）数据，过多非CoT数据会降低模型探索能力；RL训练数据包含STEM问题、代码任务等四类，其中数学数据泛化能力强，能广泛提升各任务性能。
RL算法上，模型训练存在不稳定性，而团队研发的VAPO和DAPO框架分别针对演员-评论家及策略梯度范式，解决了这一问题，保障了训练的稳健性。
RL基础设施采用混合引擎架构， Streaming Rollout System（SRS）能缓解长响应生成中的滞后问题，结合多种并行机制和内存优化策略，提升了训练效率与可扩展性。
评估结果显示，Seed1.5-Thinking在数学推理的AIME 2024中与OpenAI的o3-mini-high持平，但在AIME 2025和BeyondAIME仍有差距；在科学领域GPQA接近o3水平；编程方面接近Gemini 2.5 Pro；逻辑推理的ARC-AGI上表现突出。人类评估中，其在非推理场景的整体胜率超DeepSeek R1 8.0%，更贴合人类偏好。
未来，团队计划探索更高效的强化学习方法，挑战更复杂任务，并研究通用奖励建模，以进一步提升模型智能边界。同时，还将公开BeyondAIME和Codeforces等内部基准，助力相关领域研究。
以下为报告节选内容

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

BMW Group与奥格斯堡大学联手推出CAR-bench

剑桥大学：当视频生成AI学会"思考"，竟然比文字描述更聪明？

清华大学突破：让AI像人一样"看图说话"，彻底改变信息检索方式

华为香港研究中心新突破：让AI能像人类一样进行多步推理

7英寸巨屏旗舰将要重出江湖！有两大品牌已在评估

UC Davis携手Google DeepMind：让AI模型学会"看重点"的训练方法

全站最新

BMW Group与奥格斯堡大学联手推出CAR-bench

剑桥大学：当视频生成AI学会"思考"，竟然比文字描述更聪明？

清华大学突破：让AI像人一样"看图说话"，彻底改变信息检索方式

华为香港研究中心新突破：让AI能像人类一样进行多步推理

热门推荐

BMW Group与奥格斯堡大学联手推出CAR-bench

剑桥大学：当视频生成AI学会"思考"，竟然比文字描述更聪明？

清华大学突破：让AI像人一样"看图说话"，彻底改变信息检索方式

华为香港研究中心新突破：让AI能像人类一样进行多步推理

7英寸巨屏旗舰将要重出江湖！有两大品牌已在评估

UC Davis携手Google DeepMind：让AI模型学会"看重点"的训练方法

腾讯混元团队：AI智能体如何学会真正的"深谋远虑"？

ByteDance研究团队推出评估AI模型深度研究能力的全新基准

上海AI实验室团队打造"定制化大脑"让AI协作更聪明

哥伦比亚大学全新突破：AI智能体也能学会"预知未来"了？

NYU与耶鲁发现：传统BM25算法在特定任务中超越先进AI检索系统

阿里团队SwimBird：AI实现视觉与文字思维自由切换

加拿大滑铁卢大学团队破解AI视频生成"健忘症"难题

复旦突破：交互式监督框架赋能普通人指挥AI完成专业任务

比亚迪方程豹钛7第三次OTA推送，天神之眼5.0上车