AttnRL:基于注意力机制的过程监督强化学习框架,清华快手联合研发

AI快讯 2025-10-21
从AlphaGo战胜人类顶尖棋手,到GPT系列展现出的惊人推理与语言能力,强化学习一直是推动机器「学会思考」的核心技术。然而,在让大模型真正掌握推理能力的道路上,探索效率始终是难以突破的瓶颈。 过程监督强化学习作为当前最前沿的强化学习范式,让模型不再仅仅关注「结果是否正确」,而是学会在「推理过程」中持续修正自己。但传统方法在探索效率和训练成本方面仍存在显著不足。 针对这一挑战,清华大学与快手联合研究团队创新性地提出了AttnRL框架,通过引入注意力机制作为探索的「指南针」,显著提升了过程监督强化学习的效率与性能表现。 **过程监督RL面临的实际挑战** 传统的结果监督强化学习方法对所有token赋予相同的奖励信号,忽视了推理过程中的细粒度质量差异。虽然过程监督强化学习能提供更精细的奖励反馈,但在分支位置选择和采样策略上效率低下,导致训练成本居高不下: - 分支策略过于粗糙:通常按照固定长度或熵值进行划分,忽略了语义信息和推理行为特征 - 采样效率亟待提升:对简单和困难问题采用相同处理方式,导致大量计算资源浪费在简单问题上 - 训练流程存在冗余:每次训练都需要进行两次采样,显著增加了时间和计算成本 **创新解决方案:注意力引导的智能探索** 研究团队的核心发现是:在大模型的推理过程中,那些注意力得分较高的步骤往往对应着「真正的思考时刻」——即模型在进行规划、自我验证或关键转折时的重要推理节点。 基于这一洞察,AttnRL提出了一种全新的探索策略:不再随机地从任意位置进行分支探索,而是让模型从高注意力的关键步骤出发,探索新的推理路径。这种被称为基于注意力的树分支策略会分析推理序列中的每个步骤,通过计算「前向上下文影响力」分数来评估其对后续推理的影响程度,仅在FCI得分最高的几个位置建立分支。这种机制让模型能够「少走弯路」,在推理树中更快地找到高质量路径。 **自适应采样机制:精准聚焦学习重点** 传统的PSRL方法通常采用固定比例、均匀采样的探索方式,无论任务难度都同等对待,造成算力资源的低效使用。AttnRL引入了两种自适应采样机制: - 难度感知探索:根据FCI分数过滤掉在两次采样中大概率完全正确的「简单题」,对困难问题扩展更多推理树进行解法探索,对简单问题则自动缩减计算量 - 动态批次调整:根据当前有效样本数量动态调整采样批次大小,确保每次训练中所有样本的梯度都具有实际贡献,大幅提升训练效率 **高效训练流程:单步采样实现性能超越** 在工程实现层面,AttnRL设计了单步离策略训练流程。传统的PSRL方法每次更新都需要进行两次生成,采样成本较高。而AttnRL通过将初始采样与蒙特卡罗采样交错执行,每步只需生成一次即可获得训练所需的两类样本,显著降低了计算开销。 **实验成果:效率与性能双重突破** 在AIME24/25、AMC23、MATH-500、Minerva、Olympiad等六个数学推理基准测试中,AttnRL对1.5B与7B两个基础模型均实现了稳定提升,平均准确率分别达到57.2%与68.7%,显著优于GRPO、TreeRL及强RLVR基线方法。 与DeepScaleR-Preview-1.5B相比,AttnRL仅需500步训练和8K上下文长度即可实现更优结果,而前者需要1750步和24K上下文长度。 基于注意力的分支方法在各项统计指标上全面优于熵分支方法,在简单题中采样到更多错误回答,在困难题中采样到更多正确回答,充分证明了AttnRL分支采样的高效性。 自适应采样机制确保每个批次的每个token都具有非零优势,训练信号密度显著提高。相比其他方法,AttnRL在更少的训练步数下达到更高性能,动态批次机制保证所有训练样本均有效,使模型能够训练更多有效token。 **未来发展方向** AttnRL首次将注意力分数应用于过程监督强化学习的探索决策,将探索资源精准投向「影响后续最多」的关键推理步骤,为大模型可解释性与强化学习研究开辟了新的方向。这一成果表明,在提升模型思考能力的道路上,效率与智能并非对立关系,而是可以通过更高效的探索策略实现共赢发展。 **相关资源** - 论文标题:Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models - 论文链接:https://arxiv.org/abs/2509.26628 - GitHub代码库:https://github.com/RyanLiu112/AttnRL - HuggingFace资源:https://huggingface.co/papers/2509.26628

想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/06b5c70f-cf9e-46d9-bc84-47cf2a5d5614

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章