大语言模型训练

快手科技熵比裁剪法:解决强化学习全局分布漂移,提升大语言模型训练稳定性

快手科技语言大模型团队提出创新性“熵比裁剪”方法,有效解决大语言模型强化学习训练中的全局分布漂移难题。该方法通过约束策略熵的相对变化,从整体分布层面稳定训练过程,与经典的PPO-Clip形成互补。实验表明,ERC能在多个高难度数学推理基准上显著提升模型性能,并确保训练动态更稳定,同时保持良好的探索能力。这项研究为提升大模型训练稳定性和可靠性提供了重要技术突破。

HuggingFace发布200页大模型训练实战指南:从架构到部署全解析,SmolLM3案例详解

HuggingFace发布的200页大模型训练实战指南,基于384块H100 GPU训练SmolLM3的实践经验,系统性地分享了从训练决策、架构设计、数据管理到长周期训练、后处理优化和基础设施建设的完整技术路线,为大语言模型开发提供了端到端的实战解决方案。

Meta强化学习扩展定律研究:40万GPU小时揭示可预测训练与算力效率

Meta等机构通过40万GPU小时的大规模实验,建立了强化学习扩展定律的科学基础,提出了可预测的ScaleRL训练方案。该研究解决了强化学习在算力扩展时的关键问题,使训练效果从随机尝试转变为可预测过程,为大语言模型的强化学习后训练提供了系统化方法论和实用指导。