今天分享的是:2025AI大模型跨域训练池化调度技术体系白皮书
报告共计:94页
《AI大模型跨域训练池化调度技术体系白皮书》核心内容总结
《AI大模型跨域训练池化调度技术体系白皮书》由第九届未来网络发展大会组委会发布,聚焦AI大模型跨域训练关键问题,提出针对性技术体系与实践方案。
当前,AI大模型发展呈现新态势。通用大模型因参数量大、训练成本高,玩家减少,而DeepSeek开源推动企业大模型兴起。企业大模型“专而精”,百亿级参数即可满足需求,单次后训练需几十卡规模,企业更愿租用算力。但我国高端智能算力面临“少、杂、散”困境,《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》为盘活存量算力、探索并网调度提供方向。
白皮书提出“全局池化调度”技术路线,区别于业界“专用算力拉远”,专注企业大模型“异属、异构、异地”资源调度,构建“广域确定性网络+智算资源并网+算网协同调度”三位一体架构,实现“异属合训、异构混训、异地同训”。
技术体系分业务层、管控层、资源层。业务层接收任务并转化为标准描述,动态拆分任务;管控层通过协同调度打破资源边界,实现算网存资源匹配;资源层整合异构资源,提供底层支撑。关键技术上,异构混训通过模型分层拆解、自适应配置适配不同GPU;异地同训借助计算通信重叠流水线、非阻塞GPU通信等提升效率;异属合训通过多队列协作、联合抢占等解决跨主体调度问题。
试验验证显示,该技术体系成效显著。异属算力集群协同训练中,跨2000公里广域网训练效率达88.75%;广域确定性网络能抵御干扰流,性能下降仅2.56%;算网协同调度可规避低带宽集群组合;计算通信重叠技术使跨域训练效率提升至94.26%;异构芯片混合训练效率达95.47%,且支持多流水线跨域训练。
未来,技术体系将以“全国一台计算机”为目标,推进算力泛在化、效率本地化与生态开放化,整合异构资源,提升训练效率,构建开放生态,推动AI大模型在千行百业落地。
以下为报告节选内容