大模型训练

DeepSeek提出流形约束超连接mHC架构,解决大规模模型训练稳定性难题

DeepSeek研究团队提出创新性“流形约束超连接”架构,通过将残差连接矩阵约束在双随机矩阵流形上,并辅以Sinkhorn-Knopp算法和定制化基础设施优化,成功解决了传统超连接在大规模模型训练中的数值不稳定和显存开销过大难题。实验表明,mHC在27B模型训练中仅增加6.7%的时间开销,即实现了显著的性能提升和卓越的训练稳定性,为大模型架构演进提供了新范式。

北航研究揭示代码大模型训练中编程语言差异,优化数据配比提升多语言协同效率

北京航空航天大学联合团队的最新研究《Scaling Laws for Code: Every Programming Language Matters》颠覆了代码大模型训练的传统认知。研究通过超千次实验发现,不同编程语言在训练动力学上存在本质差异:Python潜力巨大但难学透,Rust则快速收敛。研究首次构建了量化语言协同效应的矩阵,揭示了非对称的迁移规律,并提出了创新的“并行配对”数据策略以激发零样本泛化能力。最终,团队基于边际效用原则,给出了科学的最优Token分配方案,指导研究者在固定算力下实现性能

HuggingFace发布200页大模型训练实战指南:从架构到部署全解析,SmolLM3案例详解

HuggingFace发布的200页大模型训练实战指南,基于384块H100 GPU训练SmolLM3的实践经验,系统性地分享了从训练决策、架构设计、数据管理到长周期训练、后处理优化和基础设施建设的完整技术路线,为大语言模型开发提供了端到端的实战解决方案。

ByteRobust发布:高效故障诊断与容错机制提升大规模语言模型训练稳定性与效率

字节跳动发布的ByteRobust系统通过创新的双平面架构设计,实现了大规模语言模型训练的高效故障诊断与容错处理。该系统采用优先快速隔离而非精确定位的策略,结合自动化容错框架和可控恢复机制,在实际部署中达到97%的有效训练时间比率,显著提升训练稳定性和效率,为超大规模AI模型训练提供了可靠的技术解决方案。