快科技8月3日消息,国产GPU近年来不断取得突破,前不久砺算科技的7G01芯片性能达到了RTX 4060级别,更早之前摩尔线程也推出过高性能GPU,不仅在游戏方面可圈可点,AI也是一大重点。
在AI领域当前最强的GPU是NVIDIA推出的,硬件架构及CUDA生态构筑了几乎难以逾越的壁垒,那国产GPU在这方面到底差距多大?这事引发了很多争议,知乎用户@菽陌松囿作为业内人员,有过实际测试,公布了一些数据值得参考。
根据他的说法,(摩尔线程的GPU)kernel launch做到5us,nv大概是几十us(有点忘记了),gemm mfu做到98%,nv大概85%,FA mfu做到95%,nv是68%。
此外,他还提到了N卡的一些不足,比如通信offload ace,nv根本就没考虑,是DeepSeek帮他们做的sm隔离,15%的sm是浪费的。
当然,摩尔线程的GPU也不是没有问题,比如支持link但带宽受限于硬件还有些差距,但这不是障碍。
他强调这些数据是经过研发同事确认的,不会糊弄同仁,意味着这些数据结果相当靠谱,反正这番对比下来还是有些让人惊喜的,也颇为意外。
总体来说,他认为摩尔线程的GPU从硬件、kmd、umd算子库全部都是重写的,反击了那些认为摩尔线程没有东西的人的说法。
他援引的数据详细信息可以参考摩尔线程官号公布的文章,里面有更全面的技术解析,只不过是没有nv数据对比的,菽陌松囿提供的数据对比可以观察下两者在AI上的表现,虽然这并不是说国产的GPU可以全面超越N卡,但也不是部分网友认为的只是使用了国外IP套壳的说法。