生成式AI的发展,一方面重构了各行各业业务流程与数字化模式;另一方面,对于底层算力基础设施也提出了更高的要求。
根据IDC测算,预计到2027年,AI数据中心容量的复合年增长率 (CAGR) 将达到40.5%,与此同时AI数据中心的能源消耗预计将以44.7%的CAGR增长,到2027年达到146.2太瓦时(TWh)。
“AI的尽头是能源。”——这句话已经成为业内共识。2024年全球数据中心耗电达415太瓦时,占据全球总用电量的1.5%,与英国全年用电量相当。其中,美国数据中心耗电量180太瓦时占全球45%的份额,其次是占据25%的中国和占据15%的欧洲。目前中国数据中心年耗电量约100太瓦时,大致相当于国内电动汽车的年用电量。
与此同时,国际能源署报告预测,到2030年,全球数据中心用电将飙升至945太瓦时,逼近日本当前全国用电规模。
国际能源署发布的《能源与AI》报告中指出,以OpenAI的GPT-4为例,该数据模型在持续14周的数据模型训练中消耗了42.4吉瓦时电力,日均耗电0.43吉瓦时,这堪比2.85万户欧美家庭的日均用电量。
在AI需求爆发前,数据中心的冷却系统已占据40%的能耗。而AI服务器的单机柜功率从10kW跃升至50kW以上,彻底击穿了风冷系统的散热极限。微软Azure团队发现,传统风冷数据中心在搭载 H100 GPU后,PUE值从1.3飙升至1.8,部分高热区域甚至出现服务器宕机。
AI能耗颠覆IDC产业
基于上述背景,不仅是数据中心供冷系统,甚至连数据中心整体架构都迎来了变革,对此,海兰云云计算首席技术官林杨表示,作为高载能行业,数据中心提升能源利用率,在数据中心整体运营过程中至关重要。
除此之外,因为绝大多数数据中心服务器并非24小时都处于满负载运行,而闲时的算力即便未被利用,数据中心内部电力消耗却不会因此减少,所以,在并行科技市场总监荀军看来,如何利用好闲时算力,将每个Token的算力都尽可能的充分利用好,也是接下来数据中心行业架构变革过程中需要解决的问题。
面对AI需求与能耗的双重考验,数据中心技术演进也向着两个方向推进。
一方面,数据中心内部设备的功耗不断降低,将除去服务器之外的所有“辅助”设备的能源消耗尽量降低到最低,比如,供冷方面采用制冷效果更好,相对耗电量更小的液冷或间接蒸发冷却技术;供配电采用相对电力损耗更低的高压直流的方式等。
另一方面,也有不少IDC服务商在数据中心建设选址,以及设计等方面寻找数据中心碳中和与AI需求“双赢”的解。
比如,华为就选择“挖山”建设数据中心,将机房放在山体内,以降低供冷消耗,而海兰信则选择将数据中心建设在水中,通过海水带走多余的热量,一方面能有效降低数据中心能耗,另一方面还能回收相对“热品位”较高的海水的热量,余热回收会进行副业的赋能与发展。
海兰信并不是“第一个吃螃蟹的人”。早在2015年,微软就在苏格兰附近海域部署了全球第一个海底数据中心。微软先是于2015年在太平洋海域完成了105天概念验证,并后续在2018年在苏格兰东北部的奥克尼群岛海底117英尺深处部署了名为“北方群岛” 数据舱。该数据舱内置864台服务器,可以存储27.6PB的数据。在海底运行了两年后,微软在2020年6月把它打捞上岸进行分析。
据微软分析公布,该数据舱运行两年间,故障率仅为陆地数据中心的1/8,PUE值低至1.07。其核心在于全密封氮气环境与海水自然散热的结合——通过铜制散热片将服务器热量直接传递至4-12℃的深层海水,彻底摒弃传统制冷系统。
而也正是在2020年,海兰信开始了海底数据中心的技术验证和研发进程,并于2023年在海南陵水清水湾,正式下水了一期首舱。据悉,该项目利用海水自然冷却技术,具有低能耗、高可靠性和模块化部署优势。
同样经过了两年多的实验与摸索,林杨告诉笔者,目前该项目实现PUE值约1.1,电能损耗降低10%以上,能效提升可达30%以上。
显然,在海底部署数据中心可以有效的降低数据中心制冷方面的能源消耗,同时还能提升电能利用率。另一方面,将数据中心采用完全封闭的方式,也可以将内部服务器完全与外界干扰隔绝。从而降低人为等因素带来的数据中心故障率(此前有数据统计,数据中心内部,有超过半数的故障是因为种种人为因素导致的),而完全真空无尘的环境,也可以延长服务器的寿命。
而从TCO(全生命周期成本)角度来看,海底数据中心也明显优于陆地建设数据中心。据统计,海底数据中心的TCO较陆地低15-20%。以海南陵水项目为例,单个数据舱建设成本约3300万元,但每年节省电费约660万元(按0.6元/千瓦时计算),加上淡水节约(31.5万元/年)和土地成本(6.8万平方米/100舱),五年即可收回投资。
相比之下,陆地液冷数据中心虽然PUE可降至1.15,但建设成本增加30%,且需额外投入淡水资源(单机柜年耗水200立方米)。微软测算,一个5000机柜的海底数据中心,十年可节省运营成本1.2亿美元。
除此之外,通过对海底数据中心余热的回收,还可以带动周边海域的渔业等副业发展,形成一个相对较为完善的生态闭环,产生额外价值。
仍有很大优化空间
虽然将数据中心放在海底有诸多好处,但仍存在一些弊端。
其最大的一个弊端就是——数据舱位于完全“与世隔绝”的海底,后续运维难度极大,需将数据舱完全吊出海面才能进行运维。尤其是在AI算力快速发展的今天,服务器的更新换代也逐渐提速,频繁的吊装数据舱为企业造成了额外费用的同时,也会破坏相对稳定的舱内环境。
为此,林杨告诉笔者,海兰云目前已经推出了海底数据中心2.0项目,据他介绍,该项目与位于陵水的项目不同的是,数据中心采用了潜入式的方案,将数据舱完全固定在海底,并预留了运维人员出入的管道,后续运维操作可以借由该管道进出。
“我们在位于上海的海底项目采用了2.0的方案,将数据中心固定在海底20米深左右的海床上,一方面这个深度可以确保海平面上的风浪不会对数据中心造成影响,另一方面,20米的深度也为潜入式运维提供了必要的条件保障。”林杨强调。
据林杨介绍,该项目预计于今年9月中旬正式投产,并且后续将进一步海上风电为数据中心供电,“该项目规模在200MW左右,部署完海上风电之后,超过95%的电力都将采用风电的方式供应,更进一步的降低了数据中心的PUE,同时也在陆地上备接了市电,确保业务的连续性。”林杨如是说。
除了运维与建设层面的优化之外,整个算力应用与算网的建设层面,是目前整个数据中心行业都需要面临的挑战,海底数据中心也不例外。
在荀军看来,算力调度运营平台已经成为当前提升算力利用率的最佳路径,如果能将该平台的建设与基础设施层面海底数据中心的建设相结合,应用/软件层面上的最佳与基础设施层面上的最佳路径的结合,将成为未来数据中心的最优解。
而算力平台的建设也并不是并行科技一家的布局,目前业内已经有不少云服务商、IDC服务商、算力服务商都推出了相应的调度平台。究其原因,在AI算力需求爆发式增长的背景下,企业对于算力体系建设方面也在发生着变化。
原先,企业自建算力基础设施可能是一个比较“划算”的应用算力的形态,但这种模式在现阶段存在了一定弊端。
首先,企业选择自建算力基础设施的过程中,一次性投入很大,尤其是要能支撑起当前AI算力需求的硬件投入是十分庞大的,且周期很长,不能满足企业短时间的业务需求。
其次,对于大多数企业而言,业务规模没有达到那么大量的需求,建设好的机房利用率很低,有一些甚至不足30%,这对于企业而言,相当于“花大钱,半小事”,十分不划算。
而企业对于直接购买算力的需求,也催生了越来越多“卖算力”的算力服务商。在算力买卖过程中,算力调度运营平台就成为了关键的抓手。
而此前与并行科技AI云事业部总经理赵鸿冰的交流中,他曾向笔者表示,目前选择算力平台负载业务的企业越来越多,这也对算力服务商构建算力调度平台提出了更高的要求。“这些要求中,最为紧要的是高性能通信的要求,只有通信的性能足够强,才能真正实现良好的调度效果。”赵鸿冰强调。
海底数据中心与算力平台的结合,无论是在底层基础设施层面,还是在中间算力输送层面,都是对当前数据中心行业的一次重构。畅想一下未来的算力产业,或将成为“海底节点+陆地集群+边缘终端”的协同体。
海底数据中心承担大模型训练的高密算力,陆地液冷集群处理实时推理,边缘节点支撑毫秒级响应,三者通过智能调度平台形成动态平衡。这种一体化的算力生态,也有望成为应对AI多元化需求的最优解。(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)