大语言模型训练

Meta强化学习扩展定律研究:40万GPU小时揭示可预测训练与算力效率

Meta等机构通过40万GPU小时的大规模实验,建立了强化学习扩展定律的科学基础,提出了可预测的ScaleRL训练方案。该研究解决了强化学习在算力扩展时的关键问题,使训练效果从随机尝试转变为可预测过程,为大语言模型的强化学习后训练提供了系统化方法论和实用指导。