DeepSeek提出流形约束超连接mHC架构,解决大规模模型训练稳定性难题

AI快讯 2026-01-02

DeepSeek 提出 mHC 架构:以流形约束破解大模型训练稳定性难题

新年伊始,DeepSeek 研究团队在 arXiv 上发布了一项突破性研究,提出了一种名为 流形约束超连接 的新架构。这项研究旨在解决传统超连接技术在大规模模型训练中普遍存在的稳定性与效率瓶颈,为大模型架构的演进开辟了新的路径。

传统残差连接的局限与超连接的挑战

在 Transformer 架构中,标准的残差连接通过 x + F(x) 的结构,凭借其“恒等映射”特性,确保了信号在深度网络中的稳定传输。然而,这种设计的根本局限在于信息通道的宽度被严格限制在隐藏层的维度 C 内,限制了模型的表达能力。

近年来,以字节跳动 Seed 团队提出的 超连接 为代表的技术,试图通过拓宽残差流并引入多样化的连接模式来突破这一限制。虽然 HC 在理论上带来了显著的性能增益,但在大规模训练实践中却暴露了两个致命缺陷:

  • 数值不稳定性:由于连接矩阵缺乏约束,信号在多层传播过程中极易发生“爆炸”或“消失”,破坏了恒等映射的核心属性,导致模型越深越难训练。
  • 巨大的系统开销:拓宽的通道意味着显存读写和通信成本呈倍数增长,即所谓的“显存墙”问题,严重制约了技术的实际可扩展性。

这些问题从根本上动摇了残差连接赖以稳定的基石,使得 HC 难以应用于超大规模模型的训练。

mHC 的核心创新:在流形上重建稳定性

面对这些挑战,DeepSeek 团队提出了 流形约束超连接。mHC 的核心思想是:将 HC 中自由学习的残差连接矩阵,投影到一个具有良好数学性质的特定“流形”上,从而在保留拓宽通道带来的性能优势的同时,强制恢复训练的稳定性。

具体而言,研究团队创新性地将残差映射矩阵约束为 双随机矩阵。这类矩阵的所有元素非负,且每行、每列的元素之和均为 1。从几何上看,所有双随机矩阵构成一个被称为 Birkhoff 多胞形的凸集。选择这一约束具有多重理论优势:

  • 范数保持:双随机矩阵的谱范数不超过 1,这意味着映射是“非扩张”的,能有效防止梯度爆炸。
  • 复合封闭性:多个双随机矩阵相乘的结果仍是双随机矩阵,确保了信号在极深的网络层中传播时,稳定性得以层层保持。
  • 凸组合解释:残差映射可被视为一系列排列矩阵的凸组合,其重复应用能稳健地促进不同信息流之间的融合。

为了实现这一约束,团队采用了经典的 Sinkhorn-Knopp 算法。该算法通过迭代的行列归一化操作,能将任意一个非负矩阵高效地投影到双随机矩阵流形上。在 mHC 中,这一过程被无缝集成到前向传播中。

为效率而生:量身定制的基础设施优化

仅仅解决稳定性问题还不够,额外的计算开销是大规模应用的另一个拦路虎。为此,DeepSeek 为 mHC 设计了一套极致优化的基础设施方案,使得在将残差流拓宽 4 倍的情况下,训练时间开销仅增加 6.7%。关键技术包括:

  1. 算子融合:将 Sinkhorn-Knopp 迭代、矩阵乘法、归一化等多个操作融合进一个统一的高效内核中,大幅减少了内存访问和内核启动开销。
  2. 选择性重计算:为缓解拓宽流带来的内存压力,策略性地丢弃部分中间激活值,并在反向传播时即时重新计算,通过理论推导找到了最优的重计算块大小以平衡内存与计算。
  3. 扩展的通信-计算重叠:改进了现有的 DualPipe 流水线并行调度算法,更精细地安排计算与通信的顺序,最大化硬件利用率。

实证结果:稳定与性能兼得

研究团队在从 3B 到 27B 不同参数规模的模型上进行了全面实验,验证了 mHC 的有效性。

训练稳定性方面:如图 5 所示,在 27B 模型训练中,原始的 HC 出现了明显的损失波动和梯度范数异常,而 mHC 的损失曲线则平稳下降,梯度范数始终与稳定的基线模型保持在同一水平,彻底解决了 HC 的不稳定问题。

下游任务性能方面:如表 4 所示,mHC 在包括 MMLU、BBH、DROP 在内的 8 个主流基准测试上,不仅全面超越了基线模型,在大多数任务上也显著优于原始的 HC。特别是在需要复杂推理的 BBH 和 DROP 任务上,mHC 相比 HC 带来了超过 2% 的额外性能提升。

可扩展性方面:如图 6 所示,无论是随着模型参数规模从 3B 扩展到 27B,还是随着训练数据量的增加,mHC 所带来的性能优势都保持稳健,仅在高计算预算下有轻微衰减,证明其具备优秀的大规模扩展潜力。

总结与展望

DeepSeek 提出的 mHC 架构,通过将流形约束的数学严谨性与系统工程优化相结合,成功攻克了超连接技术在大规模训练中的稳定性与效率难题。它不仅仅是一个改进的残差连接模块,更代表了一种新的架构设计范式:在追求更高表达能力的复杂拓扑结构中,通过引入恰当的数学约束来保证其训练动力学的基本稳定

这项研究由解振达、韦毅轩、曹焕琦等研究人员共同完成,DeepSeek 创始人兼 CEO 梁文锋也位列作者之中,体现了公司对底层核心技术创新的高度重视。mHC 的成功为大模型,尤其是未来万亿美元乃至更大规模模型的架构演进,指明了一个充满希望的方向。

论文信息


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/ea2e19b3-a32a-436b-b66f-b3a2908f7a49

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章