![]()
机器之心报道
编辑:张倩
模型架构的重要性可能远超我们之前的认知。
最近,约翰斯・霍普金斯大学的一项研究发现:1100 多个不同的神经网络,即使在完全不同的数据集上训练、用不同的初始化和超参数,最终学到的权重都会收敛到一个共享的低维子空间。
这似乎是说明:存在一个「先验的」数学结构,所有神经网络都在逼近它。训练不是在「创造」什么,而是在「发现」一个早已存在的几何形式。换句话说,神经网络「想学的东西」似乎高度一致,架构决定了它能学什么,比数据影响更大。
![]()
这一发现有助于解释很多「神秘」现象,比如为什么过参数化的模型(参数远多于训练样本)还能泛化?为什么不同初始化最终学到相似的表示?为什么 LoRA、权重共享这些技术能 work?如果神经网络确实在共享子空间内学习,这将为隐式正则化、可迁移性以及稀疏训练方法的有效性提供支持性解释,同时也为诸如高效合并、新的优化技术、更快更高效的学习和推理等应用开辟道路。
![]()
论文标题:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS论文链接:https://www.arxiv.org/pdf/2512.05117
这篇论文在 Alphaxiv、X 等平台上吸引了很多关注,一度攀升到 Alphaxiv 榜一的位置。
![]()
有人说,柏拉图又赢了一回。(注:柏拉图的理念论认为:我们看到的具体事物(桌子、马、圆形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圆存在于一个抽象的理念世界,现实中的圆只是对它的模仿。其核心主张是:抽象结构先于具体实例。)
![]()
也有人从中读出了一些令人担忧的信号:如果所有模型都收敛到同一个子空间,那意味着当前架构存在内在的天花板,再多的数据和算力也只是在同一个「盆地」里打转。
![]()
论文概览
在具体研究中,作者首先聚焦于 LoRA 适配器,因其易于训练且能大量收集,在 Mistral-7B 模型的约 500 个适配器中观察到了通用子空间的涌现。随后,研究扩展到完整权重空间,从约 500 个 Vision Transformer 和 50 个 LLaMA3-8B 模型中提取出相似的低秩通用子空间,这些模型各自使用不同数据集和初始化方式训练。
![]()
此前已有多条线索暗示这一现象:神经正切核理论表明,在无限宽度极限下,网络训练动态由一个与具体任务基本无关的核函数主导;机制可解释性研究在视觉网络的特定层中发现了反复出现的电路模式;彩票假说和模式连通性也指向可复用的低维结构;早在 2012 年就有人观察到,卷积网络第一层在各种视觉任务中都会学到类 Gabor 滤波器。但这些工作要么聚焦于表示层面,要么未涉及不同模型间参数性质的收敛。
这项研究的独特之处在于:首次在权重层面提供了具体证据和明确通用假设,为深度神经网络参数空间中 「通用性」的存在提供了最为严谨的实证证据。
尽管这种通用性的根本成因仍有待探索,但即便是初步理解也具有深远意义。共享子空间有望实现:大规模模型压缩(只需存储子空间系数而非完整权重)、在已学习子空间内快速适应新任务、对泛化边界和优化景观的理论洞察,以及通过减少训练和推理计算需求带来的环境效益。此外,这种几何通用性也为研究泛化、顿悟(grokking)、灾难性遗忘和数据效率等基本问题提供了新视角。
作者也坦承了若干开放问题:不同架构的通用子空间如何相互区别?能否通过显式设计架构来优化子空间的几何结构?更根本的是,如果所有网络都坍缩到同一子空间,它们就会继承共同的偏见、能力边界和失效模式 —— 这种多样性的缺失本身是否构成了一个根本瓶颈?是否应该开发专门用于打破这种收敛的方法?
方法与结果概览
作者证明,与架构相关、逐层分布的通用子空间在各类神经模型中持续涌现。无论模型是从头训练、完全微调还是通过低秩方法适配,对通用子空间假说的遵循都表现稳健,未见显著偏离。这一现象在不同的初始化策略、模态、数据格式和数据集内容之间保持不变。
值得注意的是,所提取子空间的精度与可用模型的数量和质量相关。基于此,作者推测每种架构内在地存在一个「理想」通用子空间,各个模型实例都在向其收敛。作者假设,更优的算法、更干净的数据和更有效的优化策略能使模型更接近这一理想状态。尽管本文未正式验证「理想通用子空间」假说,但作者认为这一子空间代表了当代反向传播训练的神经网络最稳定的配置,因此这一规则的例外情况可能为进一步的研究提供沃土。
分析方法
由于目前尚无方法能够比较不同架构模型的子空间,作者聚焦于在同一架构上训练的大量模型,对 LoRA 适配器以及 Transformer 和 CNN 的经典权重进行分析。除非另有说明,所有实验仅执行 1-2 阶的高阶奇异值分解(HOSVD),以确保方法在最简单情况下也能奏效。谱分析依赖高效的谱分解库,甚至可在 CPU 上运行,作者的所有分析和实验均在单块 Nvidia A5000 GPU 上完成。通过对数千个公开可用模型进行分析,作者无需任何训练成本即可提取通用子空间。
以下是作者所实现的算法:
![]()
联合子空间分析结果
在 CNN 实验中,作者从随机初始化开始,在五个互不重叠的数据集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)上训练 ResNet-50 进行图像分类。尽管理论分析表明少量模型可能导致对联合通用子空间的欠近似,但从头训练 CNN 的规模限制了可纳入研究的模型数量。
即便如此,对 ResNet-50 所有层的平均解释方差(图 2b)分析揭示了一个跨越这些不相交任务的独特共享低秩结构:大部分信息仅存在于 16 个(或更少)不同的子空间方向中。此外,将模型投影到这一子空间以获得低秩 ResNet-50(从而减少参数)后,其性能相对于完全微调仍具竞争力,进一步支持了联合子空间的存在和实用性(图 2a)。
![]()
为进行更大规模的真实世界实验,作者选择对 LoRA 模型进行子空间分析,因为它们在公共领域大量存在。鉴于 LoRA 模型明确捕获任务特定方向且与原始权重对齐较弱,它们是验证假说的良好替代。
在首个实验中,作者使用基于 Mistral-7B-Instruct-v0.2 训练的 500 个自然指令任务的 LoRA 模型,每个 LoRA 单独至少为 16 秩。分析结果(图 3)显示,所有 500 个模型的参数都可被一个有限的低秩子空间良好近似,且这一模式在所有层中一致存在。
![]()
为测试通用子空间的表达能力,作者通过将随机选择的已见(IID)和未见(OOD)任务的 LoRA 参数投影到通用子空间来解析重构它们,结果(图 4)表明通用子空间模型在两种情况下都表现稳健。作为对照,使用谱分解剩余分量(称为次级子空间)重做实验时,性能大幅落后。值得一提的是,通用子空间模型的内存效率提升了 19 倍,因为不再需要保存全部 500 个 LoRA。
![]()
接下来,作者进一步将分析扩展到使用 Stable Diffusion-XL 的文生图任务。从 HuggingFace 上公开可用的 LoRA 中提取通用子空间后,将单个 LoRA 投影到该子空间,生成的图像保持了视觉质量和风格(图 5)。
![]()
基于 CLIP 的评估显示,通用子空间在某些情况下甚至优于单个 LoRA,这可能归因于先前研究中观察到的去噪效应。
![]()
为测试将多个模型压缩到单一通用子空间的能力,作者将其方法与最先进的模型合并方法进行比较,包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。这些基线方法通常需要调整缩放系数、剪枝阈值或在验证集上进行迭代调优。
相比之下,通用子空间方法仅基于跨模型识别的共享低秩子空间的几何结构来解析计算合并系数,无需迭代调优或验证数据。由于子空间本质上是低秩的,合并后的模型参数显著少于任何单个模型。实验结果(表 2)表明,该方法在降低参数数量的同时取得了更高的平均准确率,实现了无需启发式剪枝或验证开销的可扩展、稳健的模型合并。
![]()
总而言之,这四组实验为通用子空间假说提供了强有力的实证支持,并展示了其在内存效率、模型合并、模型可复用性以及跨任务跨模态可扩展部署方面的实际优势。
不过,也有人提醒说,这篇论文虽然有价值,但结论需要经过更加严格的验证。首先,任务多样性不够真实,研究没有在真正异质的任务(如 MIDI 生成、英语文本、MNIST 像素生成)之间寻找共享子空间,所以发现的可能只是「任务子宇宙特定的子空间」而非真正的通用子空间;二是没有跨架构比较的方法,无法声称 ViT 和 LLaMA3 拥有相同子空间。
![]()
为什么通用子空间会涌现?
在论文中,作者对于通用子空间涌现的原因也给出了自己的推论。他们认为,若干理论因素可能促成了这些共享结构的出现。
首先,神经网络已知表现出对低频函数的谱偏好,产生特征值的多项式衰减,从而将学习动态集中到少数主导方向上。其次,现代架构施加了强烈的归纳偏置,约束了解空间:卷积结构天然偏好局部的、类 Gabor 模式,而注意力机制则优先处理反复出现的关系回路。第三,基于梯度的优化方法的普遍性 —— 在无限宽度极限下由与具体任务基本无关的核函数主导 —— 内在地偏好平滑解,将多样的学习轨迹引导向共享的几何流形。
如果这些假说成立,通用子空间很可能捕获了超越特定任务的基本计算模式,这或许能解释迁移学习的有效性,以及为何多样化的问题往往能从相似的架构改进中受益。





京公网安备 11011402013531号