当前位置: 首页 » 资讯 » 新科技 » 正文

阶跃星辰最新一代基础大模型 Step 3 正式开源

IP属地 中国·北京 编辑:杨凌霄 Chinaz 时间:2025-08-01 10:36:34

阶跃星辰团队宣布其最新一代基础大模型 Step3正式开源。Step3是一款专为追求性能与成本极致均衡的企业和开发者设计的模型,旨在面向推理时代打造最适合应用的模型。该模型的开源地址包括 Github、Hugging Face 和魔搭 ModelScope,开发者可以自由下载体验。

Step3采用 MoE 架构,总参数量达到3210亿,激活参数量为380亿。它不仅拥有强大的视觉感知和复杂推理能力,还能准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。通过 MFA(Multi-matrix Factorization Attention)和 AFD(Attention-FFN Disaggregation)的优化,Step3在各类芯片上的推理效率均大幅提升。此外,面向 AFD 场景的 StepMesh 通信库也已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。

Step3的核心结构采用自研 MFA 注意力机制,有效降低注意力计算中的 KV 缓存开销与算力消耗。在不牺牲模型能力的前提下,这一方案实现了资源利用与推理效率的平衡,使得模型可在8×48GB 显卡上完成大吞吐量推理,具备真实部署的可行性。多模态能力方面,Step3采用5B Vision Encoder,并通过双层2D 卷积对视觉特征进行降采样,将视觉 token 数量减少到原来的1/16,减轻上下文长度压力,提升推理效率。训练过程分为两个阶段:第一阶段强化 Encoder 感知,第二阶段冻结视觉编码器,仅优化主干与连接层,以减少梯度干扰。训练语料涵盖 Pair、Interleave 与多任务数据,在清洗环节中引入相似度过滤、重采样与任务比例控制,进一步提升图文协同质量与训练鲁棒性。

Step3在系统架构层重构了解码流程,重点解决 Attention 与 FFN 混合执行带来的推理瓶颈以及资源不匹配问题。为此,团队实现了高性能的 AFD 方案,将两类计算任务解耦成为两个子系统,并通过多级流水线并行调度,有效提升整体吞吐效率。由于解耦后的子系统之间对数据传输有极高要求,团队同时研发了面向 AFD 场景的 StepMesh 通信库,基于 GPU Direct RDMA 实现跨卡的低延迟和高带宽传输,同时兼备不占用 GPU 计算资源、适配多类异构硬件等优势。在50ms 解码的 SLA 前提下,Step3在 Hopper GPU 上的吞吐达到4039token/gpu/s,显著高于类似设置下的 DeepSeek V3(2324token/gpu/s),且该性能增益在特定硬件与长文场景会进一步放大至300%。

Step3在 MMMU、MathVision、SimpleVQA、AIME2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05)等评测集上进行了测试,在同类型开源模型中,Step3成绩行业领先。例如,在“安排商务宴座”的任务中,Step3能够识别图中结构,自动解析礼仪规则、角色关系与空间逻辑,再结合中文社交礼仪推理出完整12人角色分布逻辑,最终输出了角色明确、位置清晰、结构合理的“主宾-主陪”全局排座方案,并用表格+ASCII 图直观展示。在卡路里计算任务中,Step3能够看懂复杂的小票,把菜品归类、对上热量,最终估算出2人一顿饭总共吃了5710大卡,人均2855大卡,整个过程从原始数据到结论解释,逻辑清晰,一整个闭环。

Step3API 已上线阶跃星辰开放平台(platform.stepfun.com),开发者也可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App(应用商店搜索下载)进行体验。模型限时折扣中,所有请求均按最低价格计算,每百万 token 价格低至输入1.5元,输出4元。

Github:https://github.com/stepfun-ai/Step3

Hugging Face:https://huggingface.co/stepfun-ai/step3

魔搭ModelScope:

https://www.modelscope.cn/models/stepfun-ai/step3

https://www.modelscope.cn/models/stepfun-ai/step3-fp8

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。