强化学习创新

AttnRL:基于注意力机制的过程监督强化学习框架,清华快手联合研发

清华大学与快手联合研发的AttnRL框架创新性地将注意力机制引入过程监督强化学习,通过基于注意力的树分支策略和自适应采样机制,显著提升了推理模型的训练效率和性能表现,在多个数学推理基准测试中实现突破性成果,为大模型可解释性与强化学习研究开辟了新方向。