Transformer架构创新:刘壮团队提出无归一化Derf模型,推动深度学习发展
Transformer架构迎来颠覆性革新:刘壮团队提出无归一化Derf模型,性能超越传统方案
在深度学习领域,Transformer架构中的层归一化(LayerNorm)长期以来被视为不可或缺的组件。然而,其高昂的计算与内存访问成本,尤其是在大模型推理阶段,始终是性能优化的瓶颈。为此,构建无需归一化(Normalization-Free)的Transformer模型,成为研究者们孜孜以求的目标,但这一探索长期受困于两大难题:训练过程难以稳定,以及模型性能显著落后于传统方案。
近日,由刘壮领衔的研究团队取得突破性进展。他们在一篇题为《Stronger Normalization-Free Transformers》的新论文中,提出了一种名为Derf(Dynamic erf)的全新激活层。这一结构极其简单的逐点(point-wise)层,不仅成功解决了无归一化Transformer的训练稳定性问题,更在多项基准测试中,其性能表现超越了依赖LayerNorm的标准Transformer模型。这标志着,长期被视为“标配”的归一化层,或许并非构建高性能Transformer的唯一路径。
- 论文标题:Stronger Normalization-Free Transformers
- 论文链接:https://arxiv.org/pdf/2512.10938
- GitHub 链接:https://github.com/zlab-princeton/Derf
从DyT到Derf:无归一化之路的演进
今年早些时候,刘壮、何恺明、Yann LeCun等学者已在相关研究中证明,Dynamic Tanh(DyT)函数具备替代Transformer中归一化层的潜力。而本次提出的Derf,正是对这一思路的深化与发展。
与DyT类似,Derf是一种不依赖激活分布统计信息的逐点层。其本质是一个经过平移和缩放、并引入了少量可学习参数的高斯误差函数(Gauss error function)。在实际应用中,开发者可以将其直接替换模型中原有的LayerNorm或RMSNorm层,操作简便,实现了真正的“即插即用”。得益于其结构简单、效果稳定且性能卓越的特性,Derf为构建高效的无归一化Transformer架构提供了一个极具实践价值的新选择,相关代码已在GitHub开源。
设计原则:探寻超越归一化的核心属性
该研究的核心目标,是寻找一种在性能上能够超越传统归一化层的逐点函数。团队系统性地探究了逐点函数的内在性质如何影响模型的训练动态与最终性能,并重点关注了四个基础而关键的特性:零中心性、有界性、中心敏感性以及单调性。
实验揭示了一个重要规律:当一个函数同时满足上述四个条件时,模型的训练过程会变得更加稳定,并且通常能获得更优的性能表现。这一分析不仅筛选出了一类有效的归一化替代函数,更为无归一化Transformer的设计总结出了一套清晰明确的原则。最终,结构简单却性能出众的Dynamic erf(Derf)从中脱颖而出。
研究结论明确指出:只要设计得当,简单的逐点函数不仅能够替代复杂的归一化层,甚至有能力在性能上实现反超。
Derf详解:基于误差函数的优雅设计
在广泛的函数搜索中,研究团队发现误差函数erf(x)表现最为优异。erf(·)与标准高斯分布的累积分布函数(CDF)密切相关。在此基础上,团队为其引入了可学习的参数,从而提出了Derf。
具体而言,对于输入张量x,Derf层的数学形式如论文中公式(10)所示。其中,位移参数s和缩放参数α是可学习的标量,而γ和β则是可学习的逐通道(per-channel)向量。在将Derf集成到Transformer架构中时,研究团队采用了直接替换的策略,将模型中注意力层前(pre-attention)、前馈网络前(pre-FFN)以及最终的归一化层,全部统一替换为Derf层,确保了整个模型设计的一致性。
全面评测:Derf在多领域展现卓越性能
为了全面验证Derf的有效性,研究团队在多种基于Transformer的架构上进行了系统评估。在保持训练配置完全相同的条件下,Derf的表现不仅能够与传统归一化层持平,更在多个领域稳定超越了其前身DyT。
1. 视觉任务(Vision Transformer, ViT)
在ImageNet-1K数据集上,无论是ViT-Base还是ViT-Large模型,采用Derf所获得的Top-1分类准确率均高于使用LayerNorm(LN)和DyT的模型,充分证明了其在视觉Transformer中的有效性。
2. 图像生成(Diffusion Transformer, DiT)
在图像生成任务中,团队在多种规模的DiT模型上进行了测试。评估指标FID(弗雷歇起始距离)分数显示,Derf在所有模型规模下生成的图像质量(FID值更低)均优于LayerNorm和DyT,验证了其在扩散模型中的强大能力。
3. 语音识别(wav2vec 2.0)
在LibriSpeech数据集上的语音表示学习实验中,Derf在不同规模的wav2vec 2.0模型上,都取得了比LayerNorm和DyT更低的验证集损失,表明其能学习到更优的语音特征表示。
4. 基因组学(HyenaDNA, Caduceus)
在长序列DNA建模任务中,Derf在HyenaDNA和Caduceus模型上的表现,均超过了它们原本使用的归一化层(LayerNorm或RMSNorm)以及DyT,展示了其在处理复杂生物序列数据时的鲁棒性和强大泛化能力。
5. 语言建模(GPT-2)
在OpenWebText数据集上对GPT-2(124M参数)进行预训练的结果表明,Derf的最终性能可与LayerNorm持平,同时显著优于DyT。这进一步证实,一个设计精良的逐点层,完全有能力让Transformer变得“更强”,而不仅仅是“不变差”。
深入洞察:优势源于泛化,而非过拟合
一个有趣的发现是,Derf的性能优势并非来自更强的拟合能力。当研究团队在评估模式下测量模型在训练集本身的损失时,基于传统归一化的模型损失最低,而Derf的损失反而更高。然而,在测试集上,Derf却表现更佳。这一对比揭示了一个关键事实:Derf的核心优势在于其带来了更好的模型泛化能力,而非简单地记忆训练数据。
总结而言,Derf是一种结构简单、易于实现、性能强大的即插即用层,它为构建更强健、更高效的无归一化Transformer模型开辟了一条切实可行的新道路。欲了解技术细节与完整实验数据,请参阅原始论文。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/84994159-a82c-4f09-aae1-0325c1b24d78