阿里千问新方法:一阶近似优化大语言模型强化学习训练稳定性
阿里千问提出新方法:一阶近似优化提升大语言模型强化学习训练稳定性
强化学习(RL)已成为增强大语言模型(LLM)在复杂推理与问题解决方面能力的关键技术。然而,实现稳定、可扩展的RL训练过程,是当前面临的核心挑战。由于语言生成具有强烈的上下文依赖性,LLM的RL训练通常采用序列级奖励——即根据模型生成的完整回答给出一个整体评分。
问题在于,当前主流的RL算法(如REINFORCE和GRPO)大多采用基于单个词元(token)的优化目标。这就造成了“奖励在序列级,优化在词元级”的根本性错配,引发了业界对这些算法理论严谨性和训练稳定性的广泛担忧。此外,对于混合专家(MoE)模型而言,词元级优化目标带来了新的难题:MoE的动态专家路由机制可能会破坏词元级重要性采样的有效性。
面对这些挑战,阿里千问团队提出了一种针对大语言模型的全新强化学习理论框架。其核心洞见在于:为了最大化序列级奖励的期望值,可以巧妙地使用一个词元级的替代目标作为其一阶近似。这一近似成立的关键前提是两种偏差必须足够小:一是训练与推理阶段之间的数值差异;二是用于生成样本的“探索策略”与待优化的“目标策略”之间的偏差。
这一理论框架从原理上解释了多种提升RL训练稳定性的技巧为何有效:1)重要性采样权重自然地出现在基于一阶近似的词元级目标中;2)剪切(Clipping)机制通过限制策略更新的幅度来防止策略“过时”;3)对于MoE模型,路由重放(Routing Replay)方法通过固定专家路由选择,能同时减少训练-推理差异和策略陈旧问题。

- 论文标题:Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
- 论文地址:https://www.arxiv.org/pdf/2512.01374
为了验证理论并探索最佳实践,研究团队在一个拥有300亿参数的MoE模型上进行了大规模实验,总计消耗了数十万GPU小时。实验得出了以下关键结论:
- 在“同策略”(on-policy)训练中,结合了重要性采样校正的基本策略梯度方法(MiniRL)表现出最高的稳定性。
- 当引入“异策略”(off-policy)更新以加速收敛时,必须同时使用剪切和路由重放技术,才能有效缓解因策略陈旧导致的不稳定。
- 一旦RL训练达到稳定状态,不同初始条件(冷启动方式)的模型最终性能会趋于一致。这表明未来研究应更聚焦于RL算法本身,而非过度关注初始化细节。
理论框架:从序列期望到词元近似
研究团队将大语言模型视为一个参数化的策略。其目标是直接优化模型生成完整回答所获得的期望奖励。由于直接优化该序列级目标极其困难,团队通过重要性采样进行等价转换,并创新性地引入了一个更易处理的词元级替代目标。该目标的梯度形式,恰好是带有词元级重要性采样权重的经典REINFORCE算法。理论证明,这个词元级目标是原始序列级目标的一阶近似,其有效性严格依赖于探索策略与目标策略的接近程度。
攻克MoE模型特有挑战:路由重放
对于MoE模型,专家路由机制使稳定性问题更加复杂。路由选择会与训练-推理差异及策略陈旧耦合,从而破坏一阶近似的有效性。为此,团队提出了路由重放方法,核心是在策略优化过程中固定专家路由,使MoE模型的RL行为更接近稠密模型。具体有两种实现:Vanilla路由重放(R2)在梯度更新时复现训练阶段的路由;Rollout路由重放(R3)则统一复现推理阶段的路由,能同时降低两种偏差。
实验验证与核心发现
团队在数学推理任务上进行了严格测试。实验采用不同的训练设置,并监测奖励、策略熵等关键指标。
同策略训练结果清晰表明:MiniRL算法性能最优且最稳定;任何破坏一阶近似的操作(如引入长度归一化或移除重要性采样校正)都会导致性能下降或训练崩溃。

异策略训练结果则证明,在追求更快收敛时,路由重放和剪切是维持稳定的两大支柱,缺一不可。它们共同作用,抑制了策略的快速陈旧化。

最终,无论采用何种冷启动方式,只要训练过程稳定,模型都能达到相近的峰值性能。这强有力地说明,训练稳定性本身是成功扩展大语言模型强化学习的关键,而非特定的初始化技巧。

这项研究为大语言模型的强化学习训练提供了坚实的理论基础和行之有效的实践方案,为开发更强大、更可靠的AI系统指明了方向。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/359fa068-67b0-4cb6-a0b4-153e3dde8d3c