当前位置: 首页 » 资讯 » 新科技 » 正文

异构AI系统正在成为主流,业内呼吁构建“混合算力”技术护城河

IP属地 中国·北京 第一财经资讯 时间:2025-12-17 18:19:42

近期,英伟达H200是否能重新销往中国市场引发市场高度关注。尽管目前尚无定论,但无论如何,打造国产算力仍是中国企业的必修课。在这一过程中,构建“异构算力调度”的技术护城河正在成为当下热议的话题。

12月16日,在一场智能体生态论坛上,之江实验室副主任、浙江大学长聘教授何水兵表示,纵观2025年,混合算力集群已经成为行业追求极致性价比的必然技术选项。


推动软硬协同和多元异构技术

去年年初时,建设混合万卡算力还是一种权衡。“能不混就不混是当时的主流观点。”何水兵表示,“但现在混合算力已经成为共识。”

今年,英特尔结合了自家的Gaudi 3加速器与英伟达B200 GPU,打造了高效的异构AI系统,将英伟达B200集群的推理极限提升高达70%。

何水兵表示,软硬件协同是解决算力挑战的一大趋势。英伟达的软件平台CUDA已经成为该公司技术重要的“护城河”,开发者对于英伟达CUDA芯片编程软件高度依赖。而中国厂商也正在构建自己的“异构算力调度”护城河。

“智能算力的发展是一场涉及技术、生态和应用的全面竞赛,而建立开放、统一、合作的生态是我们共同破局的关键。”何水兵说道。

在无问芯穹联合创始人兼CEO夏立雪看来,很多算力、硬件的效能没有被很好地发挥出来。“我们需要提供高效整合异构算力资源的算力平台,以及支持软硬件联合优化与加速的中间件,让异构芯片真正转化为大算力,包括把不同的模型在各类硬件上快速完成高效部署,让算法和算力之间形成最佳的软硬件联合的优化协同。”他表示。

业内人士认为,未来谁能够解决“算力混用”难题,谁就能掌握定价权。无问芯穹高管此前对第一财经记者表示,做算力运营这件事情本身的商业模式非常清晰,就是通过技术能力把算力变为一个标准化的产品,然后再对它进行一个单位化的定价,并产生规模化的经济效应。

模型快速迭代带来的算力新挑战

夏立雪在会上表示,近半年来,无问芯穹的日均Token调用量持续走高,并经历了生产级调用的波动考验。近5个月内,无穹AI云日均Token调用量增长了5倍;此外,今年9月,无穹AI云平台某图像生成智能体客户通过开源模型复现Nano Banana手办生成图像功能,在4小时内的Token调用就激增了100倍。

设计领域的垂类智能体平台LiblibAI曾是中国最大的AI图像视频社区和生成平台,LiblibAI联合创始人杨可嘉对第一财经记者表示,AI创作体验进阶的背后,要求基础设施从聚焦推理效率提升,到为“长程任务与上下文管理、强化学习训练框架、多模态任务与资源调度”提供全面支撑。他认为,未来的智能体基础设施需要从模型算力调度向能力调度转变,能够针对不同时段、不同类型的应用需求进行算力的分部门、分时调用,才能实现资源利用的最大化。

图灵新智算创始人、董事长刘淼对第一财经记者表示:“随着对算力需求的不断增长,算力混用是未来不可阻挡的趋势,现在业内都在从需求出发,在智算集群的设计上看看如何使用异构算力调度这种技术,我们预计,异构(算力混用)的比例会越来越高。”

刘淼还称,中国不缺工程师、场景、技术,缺的是系统化方法论、流程、工具、人才和用户习惯的培养。“要破解算力混用的技术难题,需要产业界各方及学界共同努力才能实现。”他说道。

针对先进算力的发展趋势,何水兵表示,模型的快速迭代对算力不断提出新的要求。例如,当DeepSeek把R1模型开源时,推理加速和强化学习成为新的必争之地,而当时国产加速卡的基础几乎为零;等到DeepSeek开源V3模型时,极低成本的训练把MoE模型架构推向了舞台中央,国产加速卡的训练效能需要重新爬坡。

他指出,基于高速网络的大规模智算集群正在成为未来重点演进方向。而当算力规模扩大后,训练作业部分环节成本也将随规模增长呈指数级增长,成本上升的主要因素包括:故障节点导致作业启动成功率降低、慢节点造成的作业交付周期变长、规模化带来的节点检查成本增加、作业失败后排查故障节点耗时增加等。

此外,算力集群的能耗成本也将显著增加。据阿里研究院2024年的研究数据,到2030年,全球GPU算力集群的电力消耗将突破1000Twh,占全球电力消耗比重增长至2.5%左右。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新