当前位置: 首页 » 资讯 » 新科技 » 正文

2025AI大模型跨域训练池化调度技术体系白皮书

IP属地 中国·北京 编辑:杨凌霄 数策中台 时间:2025-08-23 10:25:34

今天分享的是:2025AI大模型跨域训练池化调度技术体系白皮书

报告共计:94页

《AI大模型跨域训练池化调度技术体系白皮书》核心内容总结

《AI大模型跨域训练池化调度技术体系白皮书》由第九届未来网络发展大会组委会发布,聚焦AI大模型跨域训练关键问题,提出针对性技术体系与实践方案。

当前,AI大模型发展呈现新态势。通用大模型因参数量大、训练成本高,玩家减少,而DeepSeek开源推动企业大模型兴起。企业大模型“专而精”,百亿级参数即可满足需求,单次后训练需几十卡规模,企业更愿租用算力。但我国高端智能算力面临“少、杂、散”困境,《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》为盘活存量算力、探索并网调度提供方向。

白皮书提出“全局池化调度”技术路线,区别于业界“专用算力拉远”,专注企业大模型“异属、异构、异地”资源调度,构建“广域确定性网络+智算资源并网+算网协同调度”三位一体架构,实现“异属合训、异构混训、异地同训”。

技术体系分业务层、管控层、资源层。业务层接收任务并转化为标准描述,动态拆分任务;管控层通过协同调度打破资源边界,实现算网存资源匹配;资源层整合异构资源,提供底层支撑。关键技术上,异构混训通过模型分层拆解、自适应配置适配不同GPU;异地同训借助计算通信重叠流水线、非阻塞GPU通信等提升效率;异属合训通过多队列协作、联合抢占等解决跨主体调度问题。

试验验证显示,该技术体系成效显著。异属算力集群协同训练中,跨2000公里广域网训练效率达88.75%;广域确定性网络能抵御干扰流,性能下降仅2.56%;算网协同调度可规避低带宽集群组合;计算通信重叠技术使跨域训练效率提升至94.26%;异构芯片混合训练效率达95.47%,且支持多流水线跨域训练。

未来,技术体系将以“全国一台计算机”为目标,推进算力泛在化、效率本地化与生态开放化,整合异构资源,提升训练效率,构建开放生态,推动AI大模型在千行百业落地。

以下为报告节选内容

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。