神经网络权重收敛通用子空间:模型架构主导学习结果
神经网络权重收敛通用子空间:模型架构主导学习结果
模型架构的重要性可能远超我们之前的认知。
最近,约翰斯・霍普金斯大学的一项突破性研究发现:1100多个不同的神经网络,即使在完全不同的数据集上训练、采用不同的初始化和超参数,最终学到的权重都会收敛到一个共享的低维子空间。
这一发现似乎揭示了一个深刻的数学现实:存在一个“先验的”数学结构,所有神经网络都在逼近它。训练过程不是在“创造”新知识,而是在“发现”一个早已存在的几何形式。换句话说,神经网络“想学的东西”似乎高度一致,架构决定了它能学什么,其影响力甚至超过了数据本身。

这一发现为许多“神秘”现象提供了有力的解释,例如:为什么过参数化的模型(参数远多于训练样本)仍能有效泛化?为什么不同的初始化最终能学到相似的表示?为什么LoRA、权重共享等技术能够奏效?如果神经网络确实在共享子空间内学习,这将为隐式正则化、模型可迁移性以及稀疏训练方法的有效性提供支持性解释,同时也为高效模型合并、新型优化技术、更快更高效的学习和推理等应用开辟了道路。

- 论文标题:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS
- 论文链接:https://www.arxiv.org/pdf/2512.05117
这篇论文在Alphaxiv、X等学术平台上引发了广泛关注,一度攀升至Alphaxiv排行榜首位。

有评论者将其与柏拉图的理念论相类比,认为这印证了“抽象结构先于具体实例”的哲学思想。柏拉图的理念论认为,我们看到的具体事物都只是“理念”的不完美投影,真正的、完美的形式存在于一个抽象的理念世界中。

然而,也有人从中读出了令人担忧的信号:如果所有模型都收敛到同一个子空间,那意味着当前的主流架构可能存在内在的天花板。再多的数据和算力投入,也可能只是在同一个“优化盆地”里打转,难以实现质的突破。

论文核心发现概览
在具体研究中,作者首先聚焦于LoRA适配器。因其易于训练且能大量收集,研究团队在Mistral-7B模型的约500个适配器中观察到了通用子空间的涌现。随后,研究扩展到完整的模型权重空间,从约500个Vision Transformer和50个LLaMA3-8B模型中提取出了相似的低秩通用子空间。这些模型均使用不同的数据集和初始化方式独立训练而成。

实际上,此前已有多个线索暗示了这一现象的存在:神经正切核理论表明,在无限宽度极限下,网络训练动态由一个与具体任务基本无关的核函数主导;机制可解释性研究在视觉网络的特定层中发现了反复出现的“电路”模式;彩票假说和模式连通性也指向了可复用的低维结构;早在2012年就有观察发现,卷积网络的第一层在各种视觉任务中都会学到类Gabor滤波器。但这些先前的工作要么聚焦于表示层面,要么并未涉及不同模型间参数性质的收敛。
这项研究的独特之处在于:首次在权重层面提供了具体的证据和明确的通用性假设,为深度神经网络参数空间中“通用性”的存在提供了迄今为止最为严谨的实证证据。
尽管这种通用性的根本成因仍有待深入探索,但即便是初步的理解也具有深远的意义。共享子空间有望实现:大规模模型压缩(只需存储子空间系数而非完整权重)、在已学习子空间内快速适应新任务、对泛化边界和优化景观的理论洞察,以及通过减少训练和推理计算需求带来的环境效益。此外,这种几何通用性也为研究泛化、顿悟、灾难性遗忘和数据效率等基本问题提供了全新的视角。
作者也坦承了若干开放性问题:不同架构的通用子空间如何相互区别?能否通过显式设计架构来优化子空间的几何结构?更根本的是,如果所有网络都坍缩到同一子空间,它们就会继承共同的偏见、能力边界和失效模式——这种多样性的缺失本身是否构成了一个根本瓶颈?是否应该开发专门用于打破这种收敛的方法?
研究方法与核心结果
作者证明,与架构相关、逐层分布的通用子空间在各类神经模型中持续涌现。无论模型是从头训练、完全微调还是通过低秩方法(如LoRA)适配,对通用子空间假说的遵循都表现稳健,未见显著偏离。这一现象在不同的初始化策略、数据模态、数据格式和数据集内容之间保持一致。
值得注意的是,所提取子空间的精度与可用模型的数量和质量相关。基于此,作者推测每种架构内在地存在一个“理想”通用子空间,各个模型实例都在向其收敛。作者假设,更优的算法、更干净的数据和更有效的优化策略能使模型更接近这一理想状态。
分析方法
由于目前尚无成熟方法能够直接比较不同架构模型的子空间,作者聚焦于在同一架构上训练的大量模型,对LoRA适配器以及Transformer和CNN的经典权重进行分析。实验主要执行1-2阶的高阶奇异值分解(HOSVD)。谱分析依赖高效的谱分解库,甚至可在CPU上运行,所有分析和实验均在单块Nvidia A5000 GPU上完成。通过对数千个公开可用模型进行分析,作者无需任何额外的训练成本即可提取通用子空间。

联合子空间分析结果
CNN实验: 作者从随机初始化开始,在五个互不重叠的数据集(CIFAR-10, CIFAR-100, ImageNet, Oxford-IIIT Pets, EuroSAT)上训练ResNet-50进行图像分类。对ResNet-50所有层的平均解释方差分析揭示了一个跨越这些不相交任务的独特共享低秩结构:大部分信息仅存在于16个(或更少)不同的子空间方向中。此外,将模型投影到这一子空间以获得低秩ResNet-50后,其性能相对于完全微调仍具竞争力。

LoRA大规模实验: 作者使用基于Mistral-7B-Instruct-v0.2训练的500个自然指令任务的LoRA模型进行分析。结果显示,所有500个模型的参数都可被一个有限的低秩子空间良好近似,且这一模式在所有层中一致存在。

为测试通用子空间的表达能力,作者通过将随机选择的已见(IID)和未见(OOD)任务的LoRA参数投影到通用子空间来解析重构它们。结果表明通用子空间模型在两种情况下都表现稳健。作为对照,使用谱分解剩余分量(称为次级子空间)重做实验时,性能大幅落后。值得一提的是,通用子空间模型的内存效率提升了19倍。

文生图任务扩展: 作者进一步将分析扩展到使用Stable Diffusion-XL的文生图任务。从公开可用的LoRA中提取通用子空间后,将单个LoRA投影到该子空间,生成的图像保持了视觉质量和风格。基于CLIP的评估显示,通用子空间在某些情况下甚至优于单个原始LoRA,这可能归因于去噪效应。


模型合并应用: 为测试将多个模型压缩到单一通用子空间的能力,作者将其方法与最先进的模型合并方法(如RegMean, Task Arithmetic, TIES等)进行比较。这些基线方法通常需要调整缩放系数、剪枝阈值或在验证集上进行迭代调优。相比之下,通用子空间方法仅基于跨模型识别的共享低秩子空间的几何结构来解析计算合并系数,无需迭代调优或验证数据。由于子空间本质上是低秩的,合并后的模型参数显著减少。实验结果表明,该方法在降低参数数量的同时取得了更高的平均准确率。

总而言之,这四组实验为通用子空间假说提供了强有力的实证支持,并展示了其在内存效率、模型合并、模型可复用性以及跨任务跨模态可扩展部署方面的实际优势。
讨论与未来方向
不过,也有研究者提醒,这篇论文的结论需要经过更加严格的验证。首先,实验中的任务多样性可能不够充分。研究没有在真正异质的任务(如MIDI音乐生成、英语文本理解、MNIST像素生成)之间寻找共享子空间,所以发现的可能只是“任务子宇宙特定的子空间”,而非真正普适的通用子空间。其次,目前尚无跨架构比较的有效方法,因此无法声称ViT和LLaMA3拥有完全相同的子空间。

通用子空间为何会涌现?
在论文中,作者对于通用子空间涌现的原因给出了自己的推论。他们认为,若干理论因素可能共同促成了这些共享结构的出现:
- 谱偏好: 神经网络已知表现出对低频函数的谱偏好,产生特征值的多项式衰减,从而将学习动态集中到少数主导方向上。
- 架构归纳偏置: 现代架构施加了强烈的归纳偏置,约束了解空间。例如,卷积结构天然偏好局部的、类Gabor模式,而注意力机制则优先处理反复出现的关系回路。
- 优化方法的普遍性: 基于梯度的优化方法在无限宽度极限下由与具体任务基本无关的核函数主导,内在地偏好平滑解,从而将多样的学习轨迹引导向共享的几何流形。
如果这些假说成立,通用子空间很可能捕获了超越特定任务的基本计算模式。这或许能从根本上解释为什么迁移学习如此有效,以及为何多样化的问题往往能从相似的架构改进中受益。
约翰斯・霍普金斯大学的这项研究,为我们理解神经网络的学习本质打开了一扇新的窗口。它提示我们,在追求更大模型和更多数据的同时,或许更应该回归对模型架构本身数学结构的深入探索。通用子空间的发现,既是当前深度学习范式的一个注解,也可能是指引未来突破方向的一盏明灯。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/17a49df2-decf-41de-a5f2-3981a002a0cb