当前位置: 首页 » 资讯 » 新科技 » 正文

英伟达又来掀桌了,CUDA Tile将再度改写AI格局?

IP属地 中国·北京 雷科技 时间:2025-12-11 12:21:41

在AI大模型轮番刷屏的这两年里,人们每次提到算力,都会首先想到英伟达显卡,但是很多人却不知道,想把英伟达的显卡算力变成生产力,可不仅仅是把显卡插进主板然后启动那么简单。而是需要为其准备一整套适配的软件、算法,才能真正发挥出显卡的性能,让它帮你完成工作。

而CUDA就是英伟达为此准备的一套软件生态,可以说是英伟达真正的护城河。前段时间,CUDA迎来了13.1版本更新,该版本也被英伟达称为自2006年CUDA发布以来最大规模的一次功能拓展。



图源:英伟达

在此次更新中,英伟达推出了全新的CUDA Tile编程模型,并且提供了一整套的配套工具、文档和调度特性。而在CUDA Tile更新后,不少著名半导体及AI从业者都表态点赞,认为将改变整个行业,估计有不少朋友就好奇了:一个编程模型的更新,为什么会影响整个AI行业?

CUDA Tile登场,“模块化”时代来了

如果只看“版本号+0.1”,很容易误以为 CUDA 13.1 只是例行升级,但翻完官方文档和版本说明后,小雷发现这次更新,几乎是“从编程模型到资源管理再到工具链”的全链路升级。

先来说说此次更新的核心CUDA Tile,到底带来了什么改变?简单来说,以前使用CUDA时,要自己管理threadIdx、blockIdx等核心变量,而且还要手动分配内存使用参数,然后再按SIMT模型进行展开,做针对性的编程。

而CUDA Tile则是直接在算法层面把数据切成单独的Tile(矩阵块),开发者只需要针对矩阵块的用途进行编程即可,至于后续矩阵块如何运转、是否需要调用 Tensor Core、TMA 等专用计算单元,就不需要开发者再去操心,由编译器和运行时系统在执行阶段自行决定。



图源:英伟达

为了支撑这个新模型,英伟达在CUDA 13.1里引入了一个新的虚拟指令集CUDA Tile IR,并在上层给出了cuTile Python这个DSL。得益于这两个新的开发工具,开发者可以直接用熟悉的Python写tile kernel(矩阵块内核),再由Tile IR负责落到底层硬件。

其实类似的做法在计算行业里并不少见,华为的昇腾AI处理器开发中,“Tiling”(图块化编程)也是关键步骤,用于将算子的输入数据分块,以适应NPU有限的片上内存,阿里的ATB框架同样采用了算子Tiling技术来优化深度学习计算,可以说核心思路都是为了降低开发及运行的成本,并提高效率。

除了Tile,CUDA 13.1还优化了不少基础功能模块,比如新的Green Contexts让GPU的SM(核心计算单元)按实际运行指令进行资源分割,让GPU可以优先满足低时延任务的资源需求,进一步强化云服务器对在线服务等方面的支持。

此外,Multi-Process Service也得到了针对性的增强,引入了MLOPart分区和静态SM分区模式,让多进程共享GPU资源时能够得到更准确的资源划分,对AI大模型这类混合负载为主的计算需求非常关键。

同时,英伟达还对数学库和工具链做了全面升级,cuBLAS现在可以提供了基于Tensor Core的FP32/FP64仿真GEMM(用FP16/INT8等低精度计算拼凑出高精度结果),在Blackwell这类GPU上提供加速双精度矩阵运算支持,让主流的Transformer、MoE等AI模型可以进一步压榨GPU性能。



可以说,CUDA 13.1几乎从头到尾都做了更新和升级,以至于很多开发者都用:“一个新时代的到来”去形容此次更新。在这次版本更新后,手写线程索引的时代算是结束了,甚至有人认为这次更新的意义不亚于从汇编到Python,因为它将CUDA开发的门槛明显拉低。

大家可以这么理解,以前编写CUDA的库和工具等玩意时,等于要开发者从一根线缆开始把一台汽车组装起来,虽然零件都是现成的,但是如果在拼装过程中出现了一些小BUG,你就得在一箩筐的零件里找出有问题的,然后再替换,费时费力不说还对开发者的知识储备有极高的要求。

而在CUDA 13.1之后,等于把汽车拆解成引擎、座椅、传动结构、轮胎等完整的子系统,你只需要决定这些系统的各自参数和功能,然后把它们拼在一起,就可以变成一个完整的程序运行。



图源:英伟达

对于AI行业来说,这也意味着想深度编译CUDA程序,不再只能指望少数掌握了CUDA C++工程师,普通的开发者也可以通过阅读英伟达提供的技术手册来按部就班的部署。

而且,Tile IR本身就是一套虚拟指令集架构,相当于在CUDA生态中再加入一个中间层,让开发者不再需要面向底层硬件进行开发,只要后续英伟达在更新硬件时做好后端适配,应用层就可以通过Tile IR直接适配新硬件,等于直接抹去了更换硬件所带来的重新适配成本。

不过也有开发者对此表示担忧,认为一旦CUDA Tile的性能表现不如预期,那么想再进行深度调试会麻烦,因为届时开发者看到的都是一堆抽象的Tile运算,无法像以前一样直接触及底层指令。

但是在小雷看来,CUDA开发的简易化是不可阻挡的趋势,英伟达不可能还会走回头路的。而且,CUDA 13.1并没有剔除传统SIMT开发工具,两者其实是并存的,对于开发者来说仍然可以用传统方法来进一步优化程序。

CUDA 13.1的更新,就是给所有AI开发者递上了新的“万用工具箱”,对于整个行业来说都是重大的利好,也难怪有人认为这是“新时代的到来”。

护城河or突破口?AI生态大战即将到来

随着CUDA 13.1的更新,针对AI生态的讨论也再次引起了大家的关注,过去的AMD ROCm、Intel oneAPI也好,中国厂商的自研GPU也罢,很多都是在CUDA的基础上,通过转编译来打造适配自家生态的版本。

或许有人觉得,这不就是抄袭吗?确实,不过也是无奈之举,CUDA作为最成熟的AI生态,拥有最广泛的设备兼容性,其他生态想追赶,那就只能选择“站在巨人的肩膀上”,才有可能成功,面对这种涉及到根本利益和未来话语权的争夺,手段尽出才是王道。



图源:英伟达

但是CUDA Tile的到来,或许会让这套适配体系变得更加困难,因为开发者一旦习惯用Tile IR+cuTile写代码,真正面对的接口就不再是具体线程、寄存器和block等工具,而是一整套Tile语义。

有开发者表示,想要兼容这套生态未来不仅要翻译语法,还要重建一套理解tile运算、映射到自家指令集和计算核心的编译器,等于是被迫从“抄CUDA代码”变成“抄 CUDA 编译器”,难度和成本都翻倍。

不过也有人给出了不同的看法,传奇芯片架构师Jim Keller(苹果A系列芯片、AMD Zen架构、特斯拉FSD芯片的开发者)认为CUDA Tile或许会加速CUDA的护城河消失。

看起来很匪夷所思,对吧?而Jim Keller的理由则是CUDA的优势是建立在其完善的库和框架的基础上,但是过高的上手门槛阻挡了大多数开发者。而CUDA Tile将让Tiling将成为CUDA生态的主流,另一边,业界的大多数主流AI生态其实早就转向了Tiling。

换言之,Tiling是大家更熟悉的工具,只需要先解决好CUDA Tile代码与其他Tiling 体系之间的互译问题,开发者就可以非常轻松地将CUDA软件移植到其他AI芯片生态中,而不必再从底层结构开始重新梳理。

从这个角度来看,Jim Keller的观点确实是有道理的,不过关键点就在于其他厂商是否愿意继续跟随英伟达,打造一个适用于CUDA Tile的移植工具。其实国内也有厂商在全盘复刻CUDA生态,比如刚刚上市的摩尔线程,他们的MUSA生态的目标就是在国产GPU上打造一个类似于CUDA的平台,让同一套软件能在图形、计算、多媒体和AI等多个产品线上复用。



图源:摩尔线程

为了解决生态问题,摩尔线程打造了一套MUSA SDK,里面包括运行时、编译器、GPU 加速数学库、神经网络库和通信库,并提供MUSIFY这样的迁移工具,允许开发者将CUDA代码直接转成MUSA版本,并且配备了一系列的专用库来减少开发者切换生态的成本。

而在接下来的时间里,摩尔线程也需要考虑如何重建MUSA生态对CUDA生态的适配,并进一步拓展其对国产芯片的适配性。如果摩尔线程可以整合好生态,那么也可以更好承接CUDA生态的国产化,成为国产AI生态的基座之一。

当然,要面对这个问题的也不止摩尔线程,英特尔、AMD等其他芯片企业也是一样的。不管怎样,接下来几年里,围绕AI生态展开的博弈只会变得更加激烈。英伟达希望进一步加深与AI行业的捆绑,而其他厂商则要在追赶CUDA生态的同时构筑自己的护城河,一场没有硝烟的战争已然到来。

雷科技2025“年度灯塔产品榜”评选启动!致敬堪称“科技之光、时代大作”的科技产品,~







免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。