阿里千问新方法：一阶近似优化大语言模型强化学习训练稳定性

AI快讯 2025-12-08

阿里千问提出新方法：一阶近似优化提升大语言模型强化学习训练稳定性

强化学习（RL）已成为增强大语言模型（LLM）在复杂推理与问题解决方面能力的关键技术。然而，实现稳定、可扩展的RL训练过程，是当前面临的核心挑战。由于语言生成具有强烈的上下文依赖性，LLM的RL训练通常采用序列级奖励——即根据模型生成的完整回答给出一个整体评分。

问题在于，当前主流的RL算法（如REINFORCE和GRPO）大多采用基于单个词元（token）的优化目标。这就造成了“奖励在序列级，优化在词元级”的根本性错配，引发了业界对这些算法理论严谨性和训练稳定性的广泛担忧。此外，对于混合专家（MoE）模型而言，词元级优化目标带来了新的难题：MoE的动态专家路由机制可能会破坏词元级重要性采样的有效性。

面对这些挑战，阿里千问团队提出了一种针对大语言模型的全新强化学习理论框架。其核心洞见在于：为了最大化序列级奖励的期望值，可以巧妙地使用一个词元级的替代目标作为其一阶近似。这一近似成立的关键前提是两种偏差必须足够小：一是训练与推理阶段之间的数值差异；二是用于生成样本的“探索策略”与待优化的“目标策略”之间的偏差。

这一理论框架从原理上解释了多种提升RL训练稳定性的技巧为何有效：1）重要性采样权重自然地出现在基于一阶近似的词元级目标中；2）剪切（Clipping）机制通过限制策略更新的幅度来防止策略“过时”；3）对于MoE模型，路由重放（Routing Replay）方法通过固定专家路由选择，能同时减少训练-推理差异和策略陈旧问题。

阿里千问大语言模型强化学习稳定性方法示意图 — 图：阿里千问提出的RL稳定性方法示意图

论文标题：Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
论文地址：https://www.arxiv.org/pdf/2512.01374

为了验证理论并探索最佳实践，研究团队在一个拥有300亿参数的MoE模型上进行了大规模实验，总计消耗了数十万GPU小时。实验得出了以下关键结论：

在“同策略”（on-policy）训练中，结合了重要性采样校正的基本策略梯度方法（MiniRL）表现出最高的稳定性。
当引入“异策略”（off-policy）更新以加速收敛时，必须同时使用剪切和路由重放技术，才能有效缓解因策略陈旧导致的不稳定。
一旦RL训练达到稳定状态，不同初始条件（冷启动方式）的模型最终性能会趋于一致。这表明未来研究应更聚焦于RL算法本身，而非过度关注初始化细节。

理论框架：从序列期望到词元近似

研究团队将大语言模型视为一个参数化的策略。其目标是直接优化模型生成完整回答所获得的期望奖励。由于直接优化该序列级目标极其困难，团队通过重要性采样进行等价转换，并创新性地引入了一个更易处理的词元级替代目标。该目标的梯度形式，恰好是带有词元级重要性采样权重的经典REINFORCE算法。理论证明，这个词元级目标是原始序列级目标的一阶近似，其有效性严格依赖于探索策略与目标策略的接近程度。

攻克MoE模型特有挑战：路由重放

对于MoE模型，专家路由机制使稳定性问题更加复杂。路由选择会与训练-推理差异及策略陈旧耦合，从而破坏一阶近似的有效性。为此，团队提出了路由重放方法，核心是在策略优化过程中固定专家路由，使MoE模型的RL行为更接近稠密模型。具体有两种实现：Vanilla路由重放（R2）在梯度更新时复现训练阶段的路由；Rollout路由重放（R3）则统一复现推理阶段的路由，能同时降低两种偏差。