最大似然强化学习：优化目标与计算效率提升模型训练

AI快讯 2026-02-06

最大似然强化学习：重新定义模型优化目标，实现计算效率革命性提升

在大模型主导的时代，从代码自动生成到复杂数学推理，再到自主决策的智能体系统，强化学习技术几乎已成为实现最终性能突破的“标准配置”。开发者的核心诉求其实非常直观：让模型生成正确轨迹的可能性最大化。从概率论的角度审视，这本质上等价于最大化正确输出的概率，即经典的最大似然优化目标。

然而，一项由卡内基梅隆大学、清华大学、浙江大学等顶尖研究机构联合发布的最新研究成果，揭示了一个颠覆性的认知：当前业界广泛采用的强化学习方法，实际上并未真正执行最大似然优化。严谨的理论分析表明，传统强化学习仅仅是在优化最大似然目标的一阶近似——距离我们理想中的最优训练目标，仍有巨大差距。

基于这一深刻洞察，研究团队对强化学习的目标函数进行了根本性的重审，开创性地提出了“最大似然强化学习”。该方法将基于正确性反馈的强化学习重新形式化为一个潜变量生成的最大似然问题，并引入了一族以计算资源为索引的目标函数，使得训练目标能够随着可用算力的增加，逐步逼近真正的最大似然优化。

最大似然强化学习概念图解 — 最大似然强化学习（MaxRL）框架示意图，展示了目标函数随计算量逼近最大似然的过程。

论文标题：Maximum Likelihood Reinforcement Learning
论文链接：https://arxiv.org/abs/2602.02710
项目主页：https://zanette-labs.github.io/MaxRL/
代码仓库：https://github.com/tajwarfahim/maxrl

传统强化学习的根本局限

在代码生成、数学解题、多步规划等任务中，业界已形成一种近乎条件反射的共识：只要反馈信号是二值的、生成过程是不可微的，就诉诸于强化学习。这套范式支撑了从AlphaGo的辉煌胜利到大语言模型推理能力跃升的一系列里程碑。

从端到端的视角看，强化学习旨在让模型为给定输入隐式地学习一个“成功概率”。若不考虑工程上的可微性约束，最自然、最根本的优化目标理应是最大似然。但研究团队发现，基于期望奖励的强化学习，实际上仅优化了最大似然目标展开式中的一阶项。换言之，它并未真正最大化“模型产出正确答案的概率”，而是在优化一个存在系统性偏差的替代目标。这也从理论上解释了强化学习实践中一个普遍而棘手的现象：训练初期进展迅猛，但后期性能提升举步维艰。

针对这一发现，论文做出了以下核心贡献：

将基于正确性的强化学习形式化为一个潜变量生成的最大似然问题，并严格证明标准方法仅优化其一阶近似。
提出一族以计算量为索引的目标函数，通过对pass@k概率进行麦克劳林展开，在期望回报与精确最大似然之间实现平滑插值。
推导出一种简洁的同策略估计器，其期望梯度与上述近似目标完全一致，意味着增加采样能直接改善被优化的目标本身。

最大似然：重塑优化目标的核心

既然最大似然估计在有监督学习中成效卓著，为何不将其直接应用于强化学习？前述观察指引了一条路径：构建一个随计算资源变化的目标函数族，逐步纳入更高阶的统计项。随着可用算力的增长，该目标函数族将渐近收敛至完整的最大似然目标。

研究通过严谨推导，将最大似然目标在失败事件空间进行麦克劳林展开。然而，展开式中的梯度难以用有限样本直接估计，尤其当通过率较低时，估计高阶项需要海量样本。这正是提出最大似然强化学习的动机。

MaxRL被定义为一类显式以最大似然为目标的强化学习方法，其在有限采样与不可微生成的约束下依然可行。具体而言，考虑通过截断展开式来近似目标。对于截断阶数T，定义截断最大似然目标及其梯度。这定义了一个连续的目标谱系：T=1时退化为标准强化学习，T→∞时还原为精确最大似然，中间值则在两者间平滑过渡。截断阶数T直接控制了学习过程所利用的正确性事件的“阶数”。因此，MaxRL提供了一个原则性框架：通过投入更多计算量，换取对最大似然目标更高保真度的逼近。

更深刻的是，研究证明最大似然目标的梯度可等价表示为仅在“成功轨迹”的条件分布下的期望。这一洞见催生了一个极其简洁的估计器：从策略分布中采样，但仅对采样中的成功轨迹计算梯度并取平均。这意味着，在MaxRL框架下，额外的计算资源不仅降低了估计方差，更从根本上提升了被优化目标的质量。

实验验证：效率与性能的显著飞跃

在实际实验中，这一理论革新带来了远超预期的收益。研究团队在多种模型规模与任务类型上对MaxRL进行了系统评估，结果表明其在性能-计算效率的权衡上持续优于现有强化学习方法。

MaxRL训练效率对比实验 — MaxRL在相同训练步数下展现出更快的性能提升，且能持续利用增加的采样计算量。

实验结果清晰显示，MaxRL在训练效率上优势明显。在相同训练迭代次数下，其性能曲线上升更为陡峭。这种优势延伸至测试阶段，与GRPO等方法相比，MaxRL在测试时的扩展效率最高可提升20倍。

在迷宫导航等任务中，无论测试时设定的采样预算k为何值，随着训练中rollout数量的增加，MaxRL都能持续降低负对数通过率，而传统方法的改进很早就进入平台期。这直观体现了MaxRL更优的性能-效率权衡。

尤为重要的是，MaxRL的优势在大规模模型设置下依然稳健，并未出现收益递减。即使在反馈存在噪声或验证不完全可靠的更现实场景中，其性能优势也得以保持。

结语：通向通用智能的新范式？

总体而言，最大似然强化学习为不可微、基于采样的学习问题提供了一种更本质的解决方案。它通过一个可随计算资源自然演进的目标框架，系统性地逼近真正的似然优化。当优化目标本身能够与算力同步“进化”，一个深刻的命题随之浮现：强化学习究竟会成为通往通用人工智能的坚实路径，抑或仅是通向下一代训练范式的过渡桥梁？答案或许就隐藏在MaxRL所揭示的，对优化本质的不懈追寻之中。

欲了解完整技术细节与实验数据，请查阅原始论文。

想获取更多AI最新资讯与智能工具推荐，欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区

本文来源：机器之心

原文链接：https://www.jiqizhixin.com/articles/f0d38be8-16ec-4165-b7f1-cc499ca75342