![]()
这项由上海人工智能实验室、metaX和复旦大学联合完成的研究发表于2026年3月31日,论文编号为arXiv:2603.28342v1,为AI驱动的GPU内核优化领域带来了重大突破。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。
当我们用手机拍照、和ChatGPT聊天,或者看视频时,背后其实都有一个默默工作的"加速器"——GPU。你可以把GPU想象成一个超大型的厨房,里面有成千上万个厨师同时工作,专门负责处理那些需要大量重复计算的任务。不过,要让这个厨房高效运转,需要精心编写"菜谱"——也就是程序员们常说的GPU内核代码。
问题在于,编写高性能的GPU内核代码就像设计一套复杂的流水线作业方案,需要考虑无数细节:什么时候取料、如何分配工作、怎样避免厨师们互相等待。即使是经验丰富的程序员,也常常需要反复尝试很多次才能写出真正高效的代码,这个过程既耗时又需要深厚的专业知识。
随着人工智能技术的发展,研究者们开始思考:能否让AI来帮助我们自动编写这些复杂的GPU代码呢?虽然现在的大语言模型已经能够生成一些可以运行的代码,但要写出真正高性能的GPU内核,仅仅能跑起来是远远不够的——就像做菜不仅要能吃,还要好吃、营养丰富、制作高效。
正是在这样的背景下,研究团队开发了一个名为"Kernel-Smith"的创新系统。这个系统最大的特点是采用了"进化式"的优化策略,就像生物进化一样,通过不断的变异、选择和改进,逐步培育出性能越来越好的GPU内核代码。更重要的是,系统不仅能生成代码,还能对代码进行可靠的性能评估,确保优化过程朝着正确的方向前进。
一、进化算法遇上GPU编程:一种全新的优化思路
传统的AI代码生成就像是让学生做一道数学题,给出题目后要求一次性写出完整答案。而Kernel-Smith采用的进化方法则更像是组织一场"代码改进马拉松",让多个候选解决方案同时存在,每一轮都对它们进行测试、改进,然后保留表现最好的几个,再基于它们产生新的变种。
具体来说,系统维护着一个"代码种群",每个个体都是一个可以运行的GPU内核程序。在每一轮进化中,系统会随机选择一些表现较好的个体,让AI模型对它们进行修改和改进,产生新的候选程序。然后,所有程序都会在真实的GPU硬件上运行测试,根据编译是否成功、计算结果是否正确、运行速度是否更快等标准进行评分。
这种方法的巧妙之处在于,它不要求AI一次性就写出完美的代码,而是允许通过多轮迭代逐步改进。就像厨师在不断尝试新食谱的过程中,可能某次加了一种新调料特别香,某次改变了火候控制得更好,通过无数次小的改进,最终做出令人惊艳的菜肴。
研究团队还为这个进化过程设计了一套精密的"选择机制"。系统不仅会保留运行最快的程序,还会保持候选解决方案的多样性,避免所有程序都朝着同一个方向优化而错过其他可能更好的路径。这就像是在培育农作物时,不仅要保留产量最高的品种,还要维持基因多样性,以免遇到新的环境挑战时束手无策。
二、稳定可靠的性能评估:解决测量中的"噪声"难题
进化算法能否成功,关键在于能否准确评估每个候选程序的性能。然而,GPU程序的性能测量面临一个棘手的问题:同一个程序在同一硬件上多次运行,得到的执行时间往往会有波动。这种波动可能来自操作系统的任务调度、内存分配的随机性、甚至是硬件温度的微小变化。
如果不解决这个"测量噪声"问题,进化算法可能会被误导。设想一下,如果你用一个不准确的秤来比较两个苹果的重量,可能会错误地认为实际较轻的那个更重,从而做出错误的选择。在GPU程序优化中,这种错误判断会累积,导致整个进化过程偏离正确方向。
为了解决这个问题,研究团队开发了一套专门的评估基础设施。系统会在开始计时之前先进行"热身"运行,消除程序初次启动时的各种初始化开销。然后进行多次重复测量,计算平均值并剔除明显异常的结果。更进一步,系统还使用了CUDA图技术来减少GPU内核启动的随机延迟。
通过这些措施,研究团队成功将执行时间的波动控制在1%以内。这意味着系统现在可以可靠地识别出真正的性能改进,不会被随机噪声干扰。这就像给我们的"苹果称重"配备了一台高精度电子秤,能够准确区分出重量的细微差别。
系统还设计了专门的"反作弊"机制。有时候,AI模型可能会投机取巧,比如直接调用现有的PyTorch函数而不是真正编写GPU内核代码。虽然这样做能通过测试,但没有实际的优化价值。评估系统能够检测这种行为,确保所有的性能改进都来自真正的内核优化。
三、针对进化过程的专门训练策略:让AI成为更好的"代码改进师"
有了可靠的评估系统和进化框架,下一个挑战是如何让AI模型更好地扮演"代码改进师"的角色。传统的AI训练通常关注一次性生成正确答案的能力,但在进化优化中,AI需要具备的是"局部改进"能力——给定一个已经能运行的程序,如何对它进行小幅修改使其性能更好。
研究团队采用了一种创新的训练方法。他们首先用强大的AI模型生成大量的进化轨迹数据——就是从初始程序开始,经过多轮改进最终达到高性能的完整过程。然后,他们没有让模型学习整个轨迹,而是专门提取出其中最有价值的"改进步骤"。
这个过程就像是从一堆音乐练习录音中,专门挑出那些"从错误演奏改正为正确演奏"的片段来训练学生。通过学习这些高质量的改进示例,AI模型逐渐掌握了如何识别代码中的性能瓶颈,以及如何进行针对性的优化。
训练分为两个阶段。第一阶段是监督学习,让模型通过大量优质的改进示例学会基本的优化技能。第二阶段是强化学习,让模型在实际的进化环境中进一步磨练技能,通过获得真实的性能反馈来调整自己的策略。
这种训练方式的效果是显著的。经过专门训练的模型不仅能生成更好的初始代码,更重要的是,它在进化过程的每一步都能提供更有价值的改进建议,使得整个优化过程更加高效。
四、跨平台适配能力:从NVIDIA到国产芯片的无缝切换
现代GPU市场呈现多元化趋势,除了NVIDIA的CUDA生态,还有AMD、Intel以及各种国产GPU芯片。每种硬件都有自己的编程语言和优化策略,这给跨平台的GPU程序开发带来了巨大挑战。
Kernel-Smith系统在设计时就充分考虑了这种多样性。系统采用了模块化的后端架构,将通用的进化逻辑与特定硬件的编译、执行接口分离。这就像是设计了一个通用的"翻译框架",只需要为每种GPU平台开发相应的"方言模块",就能让同样的优化算法在不同硬件上运行。
研究团队实现了两个完整的后端:NVIDIA GPU的Triton后端和metaX GPU的MACA后端。在NVIDIA平台上,系统生成Triton代码,这是一种专门为GPU优化设计的Python嵌入式语言。在metaX平台上,系统生成相应的MACA内核代码。两个后端使用完全相同的进化算法和评估标准,但根据不同硬件的特点进行了针对性适配。
这种跨平台能力不仅仅是技术上的成就,更有重要的实用价值。随着AI计算需求的爆发式增长,各种新的GPU架构层出不穷,一个能够快速适配新硬件的自动优化系统将大大降低软件迁移的成本。
五、令人印象深刻的实验结果:在标准测试中脱颖而出
研究团队在多个维度对Kernel-Smith进行了全面评估。最重要的测试在KernelBench这个业界认可的GPU内核生成基准测试上进行。这个测试包含了从简单到复杂的各种GPU计算任务,每个任务都有明确的正确性和性能要求。
在与当前最先进的AI模型对比中,Kernel-Smith-235B-RL取得了全面领先的成绩。在平均加速比这个最重要的指标上,该模型达到了3.70倍的提升,明显超过了包括Gemini-3.0-pro和Claude-4.6-opus在内的顶级商用模型。更令人印象深刻的是,在中等难度的任务上,系统实现了7.77倍的平均加速比,显示了在处理复杂优化问题时的强大能力。
除了绝对性能数据,研究还展示了Kernel-Smith在进化过程中的优势。通过分析40轮进化过程中的性能轨迹,可以清楚地看到,Kernel-Smith生成的程序在进化的每个阶段都保持着最高的性能上限,而且改进速度也最快。这说明系统不仅能找到好的解决方案,还能更高效地找到它们。
在metaX平台上的测试进一步验证了系统的跨平台能力。即使是相对较小的30B参数模型,在MACA后端上也取得了超越大型模型的性能,证明了框架设计的有效性。
六、真实世界应用:从实验室走向生产环境
理论和基准测试的成功只是第一步,真正的考验在于系统能否在实际的生产环境中发挥作用。研究团队选择了三个具有代表性的真实应用场景来验证Kernel-Smith的实用价值。
第一个应用场景是SGLang,这是一个广泛使用的语言模型推理引擎。研究团队使用Kernel-Smith为其中的元数据设置功能生成了优化的GPU内核。这个内核需要处理批处理解码过程中的复杂内存操作,原有实现涉及多个分离的操作步骤。优化后的融合内核将这些步骤合并,显著减少了内存访问次数。
在单独的内核测试中,新生成的代码实现了4.78倍的性能提升。虽然在完整的推理流程中,由于这个内核只占整体计算的一部分,端到端的性能提升相对较小(约0.5%到1.75%),但这种改进是在真实生产环境中获得的,具有重要的实际价值。更重要的是,这个优化被正式合并到了SGLang的主分支,成为了开源社区的贡献。
第二个应用是LMDeploy,另一个重要的大语言模型部署工具。研究团队针对其中DeepSeek系列模型的专家混合路由模块进行了优化。这个模块在模型推理过程中负责动态选择和激活相应的专家网络,是影响整体性能的关键组件。
Kernel-Smith生成的优化内核将路由过程中的多个操作(包括sigmoid激活、偏置加法、重塑操作、top-k选择和掩码处理)融合到单个高效的内核中。在隔离测试中,新内核实现了1.36倍的加速,在完整的DeepSeek-v3.2推理任务中带来了1.85%到3.00%的吞吐量提升。这个优化同样被合并到了LMDeploy的官方代码库中。
第三个应用场景选择了DeepSeek团队最近发布的Engram架构。这是一个全新的条件记忆架构,专门为大语言模型设计,具有复杂的门控计算和深度卷积操作。由于这是最新发布的研究成果,现有的优化方法还没有涉及,为Kernel-Smith提供了一个展示原创优化能力的绝佳机会。
针对Engram的优化取得了最显著的成果。系统生成的内核将原本分散在多个Python操作中的门计算、RMS标准化、深度卷积和残差更新融合成两个高度优化的GPU内核。通过预计算权重和使用半精度中间结果,新实现大大减少了调度开销和内存传输。最终,优化后的代码实现了14.59倍的性能提升,这在GPU内核优化领域是相当惊人的成果。
这三个应用案例从不同角度展示了Kernel-Smith的实用价值。SGLang和LMDeploy的案例证明了系统可以为成熟的生产工具提供有价值的优化,而Engram的案例则显示了系统处理全新算法架构的能力。更重要的是,所有这些优化都不是停留在实验室的演示,而是真正被相关项目采纳的实际贡献。
七、技术创新的深层意义:重新定义AI辅助编程
Kernel-Smith的成功不仅仅在于它在特定任务上取得的性能提升,更在于它代表了AI辅助编程的一种新范式。传统的AI编程助手主要关注帮助程序员更快地编写代码,比如自动补全、错误检测或生成模板代码。而Kernel-Smith则展示了AI在程序性能优化这个更高层次上的潜力。
这种能力的获得需要AI系统具备对计算机硬件架构的深度理解,能够分析程序的执行特征,识别性能瓶颈,并设计相应的优化策略。这些都是传统上需要资深软件工程师多年经验才能掌握的技能。Kernel-Smith证明了通过合适的训练方法和系统设计,AI可以在这个领域达到甚至超越人类专家的水平。
系统采用的进化优化策略也为其他领域的AI应用提供了启发。在很多实际问题中,我们并不需要AI一次性给出完美答案,而是希望它能够持续改进现有解决方案。这种"渐进优化"的思路可能比传统的"一步到位"方法更适合处理复杂的现实问题。
另一个重要创新是系统对评估稳定性的重视。在机器学习的很多应用中,我们往往假设评估指标是可靠的,但在GPU性能优化这样的场景中,测量本身就存在噪声和不确定性。Kernel-Smith通过精心设计的评估基础设施解决了这个问题,为其他需要在噪声环境中进行优化的AI应用提供了参考。
八、面向未来的技术展望:更广阔的应用前景
虽然当前的研究主要集中在GPU内核优化这个相对专门的领域,但其背后的技术原理有着更广阔的应用前景。随着AI计算需求的持续增长,各种新型加速器硬件层出不穷,包括专用的AI芯片、量子处理器、神经形态芯片等。每种新硬件都需要专门的编程技能和优化知识,而培养相应的专家需要大量时间。
Kernel-Smith展示的自动优化能力为解决这个问题提供了新的思路。通过将优化知识编码到AI系统中,我们可能实现硬件和软件的更快速适配。当新的硬件平台出现时,只需要为系统添加相应的后端支持,就能快速获得高质量的优化代码。
系统的进化优化方法也可能应用到更广泛的软件优化场景中。除了GPU内核,CPU程序优化、数据库查询优化、网络协议调优等领域都可能从这种方法中受益。核心思想是将优化过程视为一个搜索问题,通过AI指导的探索逐步改进解决方案的质量。
从更宏观的角度看,Kernel-Smith代表了AI系统从"辅助工具"向"专业伙伴"转变的一个重要里程碑。未来的AI助手不仅能帮助我们更快地完成工作,还能在专业技能上达到甚至超越人类专家的水平,成为真正意义上的智能协作者。
当然,这种发展也带来了新的思考。当AI能够自动优化复杂的系统代码时,程序员的角色会如何变化?我们需要什么样的新技能来与这样的AI系统协作?这些问题没有标准答案,但Kernel-Smith的成功为我们探索这些问题提供了一个具体而有力的起点。
研究团队已经将Kernel-Smith的核心框架以OpenEvolve的名称开源发布,这意味着更广泛的研究社区和工业界可以在此基础上继续探索和改进。可以预期,随着更多研究者的参与和更多应用场景的探索,这种AI驱动的自动优化技术将会变得更加成熟和实用,最终成为现代软件开发工具链中不可或缺的一部分。
说到底,Kernel-Smith的意义不仅在于它解决了GPU内核优化这个具体问题,更在于它展示了AI技术发展的一个新方向。通过将深度学习、进化算法和系统工程巧妙结合,研究团队创造了一个能够在复杂技术领域发挥专家级能力的AI系统。这种成功为我们描绘了一个更加智能和高效的软件开发未来,值得整个技术社区的关注和进一步探索。对于那些对AI如何改变传统工程实践感兴趣的读者,这项研究提供了一个极具价值的案例和思路来源。
Q&A
Q1:Kernel-Smith是什么?
A:Kernel-Smith是由上海人工智能实验室开发的AI系统,专门用于自动生成高性能的GPU内核代码。它采用进化算法,维护多个候选程序同时优化,通过不断测试和改进来找到最佳的GPU代码实现,就像生物进化一样逐步改善性能。
Q2:Kernel-Smith相比传统AI编程助手有什么优势?
A:传统AI编程助手主要帮助写出能运行的代码,而Kernel-Smith专注于性能优化。它不是一次性生成代码,而是通过多轮迭代持续改进,能够真正理解GPU硬件特性并进行针对性优化,在KernelBench测试中实现了3.70倍的平均性能提升。
Q3:普通程序员能使用Kernel-Smith吗?
A:目前Kernel-Smith的核心框架已经以OpenEvolve名称开源,但主要面向有GPU编程经验的开发者。对于普通程序员来说,更有意义的是它已经为SGLang、LMDeploy等流行工具提供了优化,这些改进会自动惠及使用这些工具的所有开发者。





京公网安备 11011402013531号