新智元报道
编辑:Aeneas
西湖大学的一篇论文成功登顶Science,力压另外4篇同主题论文,背后秘密武器,竟是来自这家中国公司的科研外挂?这次比拼速度和算力和全球科技奥运中,他们用150GB/s的神速存储,直接把数据卷成全球第一!
5篇同样主题投稿到Science,其中一篇来自西湖大学的论文脱颖而出,相应团队也顺势成为全球首个成功的团队!
这惊人的成绩背后,除了科研人员的硬实力,离不开强大的算力支撑。
所以,究竟是谁在背后支撑着这支团队,让他们卷赢了实力不容小觑的全球顶尖同行?
西湖大学
Science文章跑成第一
这就要从西湖大学的多年布局说起了。
在西湖大学,建立之初的学科布局,基本就是生物医学、物理、化学和工学这几个方向。
这些学科对科学计算的要求都极高。因此,从2019年,学校就开始大力投入引进计算资源。
要知道,科研是个讲究「又快又准」的地方,比如冷冻电镜这种研究,全球都在比拼同一个蛋白质结构,无论是哪个国家的哪个实验室,最终解出来的结构都是差不多的。
而这就演变为一场奥林匹克竞赛,追求的是谁能更快、更准。
为此,曙光存储对用户数据做了系统测试,最终发现,在少数几个存储技术上调整,就可以把整个计算过程加快大概30%。
要想建立一个集群,存储就处于重要地位。
这是因为,CPU和GPU的节点可以不断的去更新,用新的GPU节点代替老的CPU节点,用更新的更快的显卡代替旧的显卡,就能得到显存的扩容。
而底层的存储系统,就要跟上计算能力升级的节奏。
要知道,在一所高校中,光是生物医学方向就可能有十几个甚至二十几个课题组,能积累几十PB的数据。这种情况下,存储系统就很难轻易更新。
另外,很多应用其实跑在单个的CPU或GPU节点上都还好,但是一旦应用成了规模,整体性能就会下降了。
很大一部分原因就在于,存储的带宽对于小碎文件的操作能力不足,所以在高校的集群建设中,存储的地位相当重要。
为此,曙光存储为西湖大学的AI集群做了一次大升级,给出了十分硬核的存储方案:单节点带宽150GB/s,是美国某先进友商的4倍性能,单个设备仅仅占用了2U的机架空间。
在那一期的Science上,全球有5篇同主题的投稿,而西湖大学的这一篇,不仅是第一个投出,数据质量还是全场最高的!
三大平台,超强实践
现在,曙光存储已经为西湖大学打造出人工智能、科学计算等科研存储平台,以及冷数据归档的共享存储平台。
在不同科研领域,曙光存储都表现了超强的实践能力。
比如像冷冻电镜这种科研场景,对IOPS(每秒输入输出操作次数)的要求非常高。
另外还有一些跨业务场景数据的流转,比如先通过sum的协议写到存储集群里,然后再通过服务器对写进来的数据做一些解析和处理。因此对于存储系统是不小的挑战。
而曙光存储的性能水平在AI计算节点上的处理,可以实现单流极高的带宽水平。
在客户现场实测时,甚至能达到150GB/s。
而现在,这种带宽速度直接让科研数据跑得飞快,给科研速度开了挂。这种神速,也直接让客户当场震惊了。
具体合作
具体来说,曙光存储在西湖大学的其中一类存储就是全闪存储。
作为人工智能集群的一线存储,它要承接最大的负载,压力极大,尤其是多节点训练的时候,这就要求存储有很高的IOPS。
同时,曙光也会有混闪存储来为用户提供一些空间的扩展,然后让他们来储存一些数据集,和值得保存的中间结果。
而且通用计算集群上,西湖大学也采用了曙光的存储来做软件目录。
虽然这个软件目录没有像人工智能集群那样有那么大的吞吐,但对于一个集群的稳定运行,也是不可或缺的。
此外,曙光存储还会做许多温数据之类的存储,比如科研归档数据,保存时间可以至少达到5年。
而西湖大学在选择一线存储的时候,过程十分慎重,因为需要满足一些特别的指标。
毕竟,用户还是最看重集群的性能。
商业落地
不仅如此,曙光存储现在已大规模落地科研领域,除了西湖大学,还包括北京大学、中国农业大学、华南理工大学、良渚实验室、紫金山天文台等的AI4S场景。
如今的AI浪潮中,科研行业同样站在了风口。
而真正能撑起这阵AI东风的,绝不仅仅是算力,还有一个常被忽视却至关重要的一环——存储力!
面向AI的科研存储方案,难点在哪?
总的来说,面向AI的科研存储方案之所以困难,主要有四个原因:
1. 数据极其复杂
2. AI模型训推对性能要求极高
3. 数据应用流通的挑战
4. 数据存储的成本过高
对此,曙光存储都有解决之道。
数据复杂性挑战
首先,AI应用设计的数据类型,大多十分复杂,包括非结构化数据(文本、图像、音视频等)、结构化数据(比如成绩、档案对应的表格、数据库记录等数据)。
而非结构化数据到增长迅猛,占比不断攀升,数据格式各异、处理方式不同,这就给存储带来了巨大挑战。
对此,曙光打造了分布式全闪存储ParaStor,充分发挥先进存力的融合属性,支持块、文件、对象、HDFS等多种存储访问协议,异构数据无需格式转换即可一路畅通,避免数据跨存储系统复制。
这样,就可以轻松处理PB级对象数据、百TB级文件数据。
AI训推性能挑战
第二点,AI模型训练和推理过程需要处理海量数据,这就对存储系统的性能提出了极高要求。
比如在模型训练阶段,数据读取和写入速度会直接影响训练周期。多数传统存储系统难以满足每秒 TB 级的数据读写需求,无法匹配GPU的高速运算能力,就会导致计算资源闲置,形成性能瓶颈。
同样,推理阶段,对存储的低延迟要求也极为严苛。
曙光的高性能全闪存储ParaStor,可以通过过190GB/s 带宽,500万 IOPS支撑具身智能模型训练,把模型训练周期从「月模」加速至「周模」。
数据应用流通挑战
因为数据共享机制不完善,区域、高校、院系间数据交易标准不明、确权困难,因此就急需打破数据壁垒,建立统一高效的平台。
为此,曙光打造了数据资产的统一视图,实现了跨域、跨站点、 跨厂家等复杂数据的全局可视、实时更新;还实现了数据目录的智能化;能够面对海量的文件,都能实现千亿级文件秒级检索的能力,以及数据的高效查找。
数据存储成本问题
AI大模型应用存储系统的构建成本是很高的,而曙光存储通过更高的单位存储密度、更少的空间占用、更优异的性能显著降低了成本,是百PB-EB级超大规模AI基础设施的极佳选择。
现在,根据赛迪顾问新发布的《中国分布式存储市场研究报告(2025)》,曙光存储在教育存储市场份额已经是妥妥的TOP 1。
而且自该报告开始发布以来,曙光存储已连续3年市场份额排名第一。
曙光存储用实打实的数据证实:懂科研的存储,才能真正服务科研。
而在未来,曙光团队必将用更强大的数字底座,让中国科研插上翅膀,更早一天抵达世界前沿。