快手科技熵比裁剪法:解决强化学习全局分布漂移,提升大语言模型训练稳定性

AI快讯 2025-12-17

快手科技提出熵比裁剪法:攻克强化学习全局漂移难题,为大模型训练注入强心剂

在通往更强大、更可靠人工智能的道路上,强化学习已成为大语言模型后训练阶段不可或缺的引擎。然而,一个长期存在的幽灵——分布漂移——始终困扰着训练过程,导致模型策略偏离轨道,训练过程如履薄冰。如今,快手科技语言大模型团队带来了一项突破性创新:熵比裁剪法,它如同一双全局监控的慧眼,为强化学习的稳定性提供了全新的解决方案。

研究团队与背景

本研究由快手科技语言大模型团队主导,核心作者包括苏振鹏、潘雷宇等。该团队始终致力于基础大模型研发与Agent RL等前沿技术的探索,以务实的态度不断拓展通用人工智能的边界,并推动AI新技术与产品的落地。团队此前开源了Klear-46B-A2.5B和Klear-Reasoner-8B等模型,后者在数学与代码基准测试中达到了同参数规模模型的顶尖水平。

当前,业界普遍采用离策略(off-policy)范式进行大模型强化学习训练,即使用旧策略生成的数据来更新新策略。这不可避免地引入了分布漂移问题:新旧策略产生的数据分布存在差异,容易将优化过程推至“信任域”之外,引发训练震荡甚至崩溃。尽管近端策略优化(PPO)算法通过重要性采样裁剪部分缓解了此问题,但其约束仅作用于训练中实际采样到的动作,对于那些未被采样的、隐藏在冰山下的动作分布漂移,则无能为力。

熵比裁剪:一种全局稳定视角

面对这一挑战,快手团队独辟蹊径,提出了“熵比裁剪”机制。该方法的核心思想在于,通过监控并约束策略“熵”的相对变化,从整体分布层面施加软性约束,而非仅仅关注局部采样点。

熵比裁剪并非旨在取代经典的PPO-Clip,而是与之形成完美互补。PPO-Clip负责约束已采样动作的更新幅度,扮演“局部警察”的角色;而ERC则通过将熵比限制在合理区间内,扮演“全局交警”的角色,共同维护整个策略分布演变的稳定秩序。

具体而言,研究团队定义了“熵比”这一关键指标,它衡量的是新旧策略在同一个输出token上熵值的相对变化。与仅反映单个动作概率变化的重要性采样比率不同,熵比能够敏锐地捕捉到整个动作概率分布(包括所有未采样动作)的全局性偏移。当模型对某个token的预测变得过于确定或过于不确定,导致熵比超出预设的安全边界时,ERC机制便会果断出手,截断其对应的梯度更新,防止有害的分布漂移累积。

卓越的实验表现

为了验证ERC的有效性,团队在AIME24/25、HMMT25、MATH500等多个高难度数学推理基准上进行了全面测试。实验基于DeepSeek-R1-Distill-Qwen的1.5B和7B模型展开。

结果令人振奋:集成ERC后,模型在几乎所有基准测试上的性能均获得了一致性提升。尤其在AIME25、HMMT25等最具挑战性的任务上,性能增益更为显著。这证明了ERC在复杂推理场景中的强大潜力。同时,该方法在1.5B和7B两种不同规模的模型上均表现优异,展现了其良好的可扩展性与鲁棒性。

更深层的训练动态分析揭示了ERC的稳定器作用:与传统方法相比,引入ERC后,训练过程中策略的熵值和梯度范数波动显著减小,呈现出平稳、健康的优化轨迹。

深入机制剖析

1. 强化信任域约束

可视化分析显示,被ERC裁剪的token大多位于信任域的边界区域。这表明ERC精准地识别并拦截了那些容易被PPO-Clip忽略、却可能导致策略整体偏离的“危险更新”,从全局层面加固了信任域防线。

2. 保持有益的探索

有趣的是,ERC主要裁剪的是那些熵值较低(即过于确定)的token更新,而保留了高熵(即探索性较强)的更新。这意味着ERC并非一味地限制模型,而是有选择地抑制可能带来噪声的、过于武断的优化,巧妙地平衡了“稳定性”与“探索性”。

3. 高裁剪率背后的智慧

ERC的裁剪比例(约20%)远高于PPO-Clip(约0.02%)。这并非坏事,反而揭示了其工作本质:ERC主动过滤了大量在全局分布层面不合格的更新信号。正是这种大胆的“去芜存菁”,才换来了最终性能的稳步提升和训练过程的波澜不惊。

广泛的对比与泛化

  • 对比KL正则化:ERC在多项基准上超越了PPO-penalty。KL散度是一种严格的、逐点的硬约束,可能过度限制探索;而ERC是一种分布层面的软约束,在稳定与探索间取得了更好平衡。
  • 对比熵正则化:ERC表现显著更优。单纯的熵惩罚只能防止策略“僵化”(熵崩塌),而ERC的双向裁剪机制能同时应对熵值过高或过低的风险。
  • 卓越的泛化能力:除了在DAPO算法中验证,团队还将ERC成功集成到GPPO等其它强化学习算法中,均带来了性能提升。这证明ERC是一种通用、有效的稳定模块,具备广阔的适用前景。

论文信息
标题:Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
地址:https://arxiv.org/pdf/2512.05591

快手科技的这项研究,为解决强化学习中的全局分布漂移这一根本性难题提供了新颖而强大的思路。熵比裁剪法犹如为大规模语言模型的强化学习训练安装了一个高精度的“全局稳定器”,不仅提升了性能天花板,更确保了训练过程的稳健与可靠,为未来更强大、更对齐的AI模型开发铺平了道路。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/cbb6029e-f31c-4448-9d27-f2640ed43240

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章