当前位置: 首页 » 资讯 » 新科技 » 正文

全球第一!西湖大学成功登顶Science,卷赢同行背后黑科技揭秘

IP属地 中国·北京 编辑:江紫萱 新智元 时间:2025-08-22 14:18:57


新智元报道

编辑:Aeneas

西湖大学的一篇论文成功登顶Science,力压另外4篇同主题论文,背后秘密武器,竟是来自这家中国公司的科研外挂?这次比拼速度和算力和全球科技奥运中,他们用150GB/s的神速存储,直接把数据卷成全球第一!

5篇同样主题投稿到Science,其中一篇来自西湖大学的论文脱颖而出,相应团队也顺势成为全球首个成功的团队!

这惊人的成绩背后,除了科研人员的硬实力,离不开强大的算力支撑。

所以,究竟是谁在背后支撑着这支团队,让他们卷赢了实力不容小觑的全球顶尖同行?

西湖大学

Science文章跑成第一

这就要从西湖大学的多年布局说起了。

在西湖大学,建立之初的学科布局,基本就是生物医学、物理、化学和工学这几个方向。

这些学科对科学计算的要求都极高。因此,从2019年,学校就开始大力投入引进计算资源。

要知道,科研是个讲究「又快又准」的地方,比如冷冻电镜这种研究,全球都在比拼同一个蛋白质结构,无论是哪个国家的哪个实验室,最终解出来的结构都是差不多的。

而这就演变为一场奥林匹克竞赛,追求的是谁能更快、更准。


为此,曙光存储对用户数据做了系统测试,最终发现,在少数几个存储技术上调整,就可以把整个计算过程加快大概30%。

要想建立一个集群,存储就处于重要地位。

这是因为,CPU和GPU的节点可以不断的去更新,用新的GPU节点代替老的CPU节点,用更新的更快的显卡代替旧的显卡,就能得到显存的扩容。

而底层的存储系统,就要跟上计算能力升级的节奏。

要知道,在一所高校中,光是生物医学方向就可能有十几个甚至二十几个课题组,能积累几十PB的数据。这种情况下,存储系统就很难轻易更新。

另外,很多应用其实跑在单个的CPU或GPU节点上都还好,但是一旦应用成了规模,整体性能就会下降了。

很大一部分原因就在于,存储的带宽对于小碎文件的操作能力不足,所以在高校的集群建设中,存储的地位相当重要。

为此,曙光存储为西湖大学的AI集群做了一次大升级,给出了十分硬核的存储方案:单节点带宽150GB/s,是美国某先进友商的4倍性能,单个设备仅仅占用了2U的机架空间

在那一期的Science上,全球有5篇同主题的投稿,而西湖大学的这一篇,不仅是第一个投出,数据质量还是全场最高的!

三大平台,超强实践

现在,曙光存储已经为西湖大学打造出人工智能、科学计算等科研存储平台,以及冷数据归档的共享存储平台。

在不同科研领域,曙光存储都表现了超强的实践能力。


比如像冷冻电镜这种科研场景,对IOPS(每秒输入输出操作次数)的要求非常高。

另外还有一些跨业务场景数据的流转,比如先通过sum的协议写到存储集群里,然后再通过服务器对写进来的数据做一些解析和处理。因此对于存储系统是不小的挑战。

而曙光存储的性能水平在AI计算节点上的处理,可以实现单流极高的带宽水平。

在客户现场实测时,甚至能达到150GB/s。

而现在,这种带宽速度直接让科研数据跑得飞快,给科研速度开了挂。这种神速,也直接让客户当场震惊了。

具体合作

具体来说,曙光存储在西湖大学的其中一类存储就是全闪存储。

作为人工智能集群的一线存储,它要承接最大的负载,压力极大,尤其是多节点训练的时候,这就要求存储有很高的IOPS。

同时,曙光也会有混闪存储来为用户提供一些空间的扩展,然后让他们来储存一些数据集,和值得保存的中间结果。

而且通用计算集群上,西湖大学也采用了曙光的存储来做软件目录。

虽然这个软件目录没有像人工智能集群那样有那么大的吞吐,但对于一个集群的稳定运行,也是不可或缺的。

此外,曙光存储还会做许多温数据之类的存储,比如科研归档数据,保存时间可以至少达到5年。

而西湖大学在选择一线存储的时候,过程十分慎重,因为需要满足一些特别的指标。

毕竟,用户还是最看重集群的性能。

商业落地

不仅如此,曙光存储现在已大规模落地科研领域,除了西湖大学,还包括北京大学、中国农业大学、华南理工大学、良渚实验室、紫金山天文台等的AI4S场景。

如今的AI浪潮中,科研行业同样站在了风口。


而真正能撑起这阵AI东风的,绝不仅仅是算力,还有一个常被忽视却至关重要的一环——存储力!

面向AI的科研存储方案,难点在哪?

总的来说,面向AI的科研存储方案之所以困难,主要有四个原因:

1. 数据极其复杂

2. AI模型训推对性能要求极高

3. 数据应用流通的挑战

4. 数据存储的成本过高

对此,曙光存储都有解决之道。


数据复杂性挑战

首先,AI应用设计的数据类型,大多十分复杂,包括非结构化数据(文本、图像、音视频等)、结构化数据(比如成绩、档案对应的表格、数据库记录等数据)。

而非结构化数据到增长迅猛,占比不断攀升,数据格式各异、处理方式不同,这就给存储带来了巨大挑战。

对此,曙光打造了分布式全闪存储ParaStor,充分发挥先进存力的融合属性,支持块、文件、对象、HDFS等多种存储访问协议,异构数据无需格式转换即可一路畅通,避免数据跨存储系统复制。

这样,就可以轻松处理PB级对象数据、百TB级文件数据。

AI训推性能挑战

第二点,AI模型训练和推理过程需要处理海量数据,这就对存储系统的性能提出了极高要求。

比如在模型训练阶段,数据读取和写入速度会直接影响训练周期。多数传统存储系统难以满足每秒 TB 级的数据读写需求,无法匹配GPU的高速运算能力,就会导致计算资源闲置,形成性能瓶颈。

同样,推理阶段,对存储的低延迟要求也极为严苛。

曙光的高性能全闪存储ParaStor,可以通过过190GB/s 带宽,500万 IOPS支撑具身智能模型训练,把模型训练周期从「月模」加速至「周模」。

数据应用流通挑战

因为数据共享机制不完善,区域、高校、院系间数据交易标准不明、确权困难,因此就急需打破数据壁垒,建立统一高效的平台。

为此,曙光打造了数据资产的统一视图,实现了跨域、跨站点、 跨厂家等复杂数据的全局可视、实时更新;还实现了数据目录的智能化;能够面对海量的文件,都能实现千亿级文件秒级检索的能力,以及数据的高效查找。

数据存储成本问题

AI大模型应用存储系统的构建成本是很高的,而曙光存储通过更高的单位存储密度、更少的空间占用、更优异的性能显著降低了成本,是百PB-EB级超大规模AI基础设施的极佳选择。

现在,根据赛迪顾问新发布的《中国分布式存储市场研究报告(2025)》,曙光存储在教育存储市场份额已经是妥妥的TOP 1。

而且自该报告开始发布以来,曙光存储已连续3年市场份额排名第一。

曙光存储用实打实的数据证实:懂科研的存储,才能真正服务科研。

而在未来,曙光团队必将用更强大的数字底座,让中国科研插上翅膀,更早一天抵达世界前沿。


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。