标签名称：大语言模型训练

快手科技熵比裁剪法：解决强化学习全局分布漂移，提升大语言模型训练稳定性

快手科技语言大模型团队提出创新性“熵比裁剪”方法，有效解决大语言模型强化学习训练中的全局分布漂移难题。该方法通过约束策略熵的相对变化，从整体分布层面稳定训练过程，与经典的PPO-Clip形成互补。实验表明，ERC能在多个高难度数学推理基准上显著提升模型性能，并确保训练动态更稳定，同时保持良好的探索能力。这项研究为提升大模型训练稳定性和可靠性提供了重要技术突破。

AI快讯

2025-12-17

HuggingFace发布200页大模型训练实战指南：从架构到部署全解析，SmolLM3案例详解

HuggingFace发布的200页大模型训练实战指南，基于384块H100 GPU训练SmolLM3的实践经验，系统性地分享了从训练决策、架构设计、数据管理到长周期训练、后处理优化和基础设施建设的完整技术路线，为大语言模型开发提供了端到端的实战解决方案。

AI快讯

2025-11-10

Meta强化学习扩展定律研究：40万GPU小时揭示可预测训练与算力效率

Meta等机构通过40万GPU小时的大规模实验，建立了强化学习扩展定律的科学基础，提出了可预测的ScaleRL训练方案。该研究解决了强化学习在算力扩展时的关键问题，使训练效果从随机尝试转变为可预测过程，为大语言模型的强化学习后训练提供了系统化方法论和实用指导。

AI快讯

2025-10-20

AI导航

大语言模型训练

快手科技熵比裁剪法：解决强化学习全局分布漂移，提升大语言模型训练稳定性

HuggingFace发布200页大模型训练实战指南：从架构到部署全解析，SmolLM3案例详解

Meta强化学习扩展定律研究：40万GPU小时揭示可预测训练与算力效率