当前位置：首页 » 资讯 » 智能车 » 正文

KAN结合Transformer，真有团队搞出了解决扩展缺陷的KAT

IP属地中国·北京 编辑：周伟机器之心Pro 时间：2024-09-25 19:45:56

机器之心报道
编辑：小舟、陈陈
Transformer 是现代深度学习的基石。传统上，Transformer 依赖多层感知器 (MLP) 层来混合通道之间的信息。
前段时间，来自 MIT 等机构的研究者提出了一种非常有潜力的替代方法 ——KAN。该方法在准确性和可解释性方面表现优于 MLP。而且，它能以非常少的参数量胜过以更大参数量运行的 MLP。
KAN的发布，引起了AI社区大量的关注与讨论，同时也伴随很大的争议。
而此类研究，又有了新的进展。
最近，来自新加坡国立大学的研究者提出了 Kolmogorov–Arnold Transformer（KAT），用 Kolmogorov-Arnold Network（KAN）层取代 MLP 层，以增强模型的表达能力和性能。
论文标题：Kolmogorov–Arnold Transformer论文地址：https://arxiv.org/pdf/2409.10594项目地址：https://github.com/Adamdad/kat
KAN 原论文第一作者 Ziming Liu 也转发点赞了这项新研究。
将 KAN 集成到 Transformer 中并不是一件容易的事，尤其是在扩展时。具体来说，该研究确定了三个关键挑战：
(C1) 基函数。KAN 中使用的标准 B 样条（B-spline）函数并未针对现代硬件上的并行计算进行优化，导致推理速度较慢。
(C2) 参数和计算效率低下。KAN 需要每个输入输出对都有特定的函数，这使得计算量非常大。
(C3) 权重初始化。由于具有可学习的激活函数，KAN 中的权重初始化特别具有挑战性，这对于实现深度神经网络的收敛至关重要。
为了克服上述挑战，研究团队提出了三个关键解决方案：
(S1) 有理基础。该研究用有理函数替换 B 样条函数，以提高与现代 GPU 的兼容性。通过在 CUDA 中实现这一点，该研究实现了更快的计算。
(S2) Group KAN。通过一组神经元共享激活权重，以在不影响性能的情况下减少计算负载。
(S3) Variance-preserving 初始化。该研究仔细初始化激活权重，以确保跨层保持激活方差。
结合解决方案 S1-S3，该研究提出了一种新的 KAN 变体，称为 Group-Rational KAN (GR-KAN)，以取代 Transformer 中的 MLP。
实验结果表明：GR-KAN 计算效率高、易于实现，并且可以无缝集成到视觉 transformer（ViT）中，取代 MLP 层以实现卓越的性能。此外，该研究的设计允许 KAT 从 ViT 模型加载预训练权重并继续训练以获得更好的结果。
该研究在一系列视觉任务中实证验证了 KAT，包括图像识别、目标检测和语义分割。结果表明，KAT 的性能优于传统的基于 MLP 的 transformer，在计算量相当的情况下实现了增强的性能。
如图 1 所示，KAT-B 在 ImageNet-1K 上实现了 82.3% 的准确率，超过相同大小的 ViT 模型 3.1%。当使用 ViT 的预训练权重进行初始化时，准确率进一步提高到 82.7%。
不过，也有网友质疑道：「自从有论文比较了具有相同参数大小的 MLP 模型和 KAN 模型的性能后，我就对 KAN 持怀疑态度。可解释性似乎是唯一得到巨大提升的东西。」
对此，论文作者回应道：「的确，原始 KAN 在可解释性上做得很好，但不保证性能和效率。我们所做的就是修复这些 bug 并进行扩展。」
还有网友表示，这篇论文和其他人的想法一样，就是用 KAN 取代了 MLP，并质疑为什么作者在尝试一些已经很成熟和类似的东西，难道是在炒作 KAN？对此，论文作者 Xingyi Yang 解释道，事实确实如此，但不是炒作，根据实验，简单地进行这种替换是行不通的，他们在努力将这个简单的想法变成可能的事情。
Kolmogorov–Arnold Transformer （KAT）
作者表示，标准的 KAN 面临三大挑战，限制了其在大型深度神经网络中的应用。
它们分别是基函数的选择、冗余参数及其计算、初始化问题。这些设计选择使得原始版本的 KAN 是资源密集型的，难以应用于大规模模型。
本文对这些缺陷设计加以改进，以更好地适应现代 Transformer，从而允许用 KAN 替换 MLP 层。
KAT 整体架构
正如其名称所暗示的那样，KAT 用 KAN 层取代了视觉 transformer 中的 MLP 层。
有理基函数
作者使用有理函数作为 KAN 层的基函数，而不是 B 样条函数，即每个边上的函数

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

全新BJ40燃油上市，焕新价12.69万元起

哈弗大狗2026款，9.89万起，潮玩越野新体验

北京越野BJ40燃油正式上市：12.69万元起

大六座SUV的终极之选？深蓝S09对比问界M8你站谁？

哈弗大狗2026款热销，新手指南选哪款配置最划算

12.69万入手硬派SUV，北京BJ40能否吸引你

全站最新

REDMI Turbo 5系列发布定档1月29日

谷歌、Anthropic双重围剿下的OpenAI，正面临「生死抉择」

从AI芯片到电网设备：算力繁荣背后的“电力密码”正在被重估

小米卢伟冰：REDMI Turbo系列就是要坚定地和年轻人站在一起

热门推荐

KOSMERA首秀CES：用科技美学重构出行，开启智能新未来

星空计划CES首秀：概念车Nebula Next 01惊艳全球

全新BJ40燃油上市，焕新价12.69万元起

哈弗大狗2026款，9.89万起，潮玩越野新体验

北京越野BJ40燃油正式上市：12.69万元起

大六座SUV的终极之选？深蓝S09对比问界M8你站谁？

哈弗大狗2026款热销，新手指南选哪款配置最划算

12.69万入手硬派SUV，北京BJ40能否吸引你

BJ40燃油版12.69万起售，全民越野新选择

发布会变成用户主场！长城哈弗与60万用户早已双向奔赴

华为享界S9T旅行车秋末登场，仙踪绿亮眼吸睛

12.69万起BJ40燃油版上市，越野平权时代真的来了

内敛起来有点不适应 MANSORY发布新款库里南改装案例

特斯拉 Model Y L 突袭，搅乱六座纯电 SUV

吉利全新博越造型曝光，原创设计打造高性价比家用SUV