强化学习

AttnRL:基于注意力机制的过程监督强化学习框架,清华快手联合研发

清华大学与快手联合研发的AttnRL框架创新性地将注意力机制引入过程监督强化学习,通过基于注意力的树分支策略和自适应采样机制,显著提升了推理模型的训练效率和性能表现,在多个数学推理基准测试中实现突破性成果,为大模型可解释性与强化学习研究开辟了新方向。

RewardMap:多阶段强化学习优化多模态大模型视觉推理,提升地铁路径规划精度

西湖大学ENCODE实验室联合多所高校提出RewardMap框架,通过多阶段强化学习和难度感知的细粒度奖励机制,有效解决多模态大模型在地铁图等密集视觉信息处理中的奖励稀疏问题。该技术在地铁路径规划任务中实现显著性能提升,在空间推理评估中取得13.51%的改进,为高分辨率视觉推理任务提供了可复用的强化学习范式。

Self-Forcing++突破4分钟长视频生成,自回归扩散模型实现高质量输出

Self-Forcing++是由加州大学洛杉矶分校与字节跳动Seed团队联合开发的突破性视频生成技术,首次实现4分钟高质量长视频生成,无需长视频训练数据。该技术通过创新的教师-学生模型交互机制、反向噪声初始化、扩展分布匹配蒸馏和滚动KV缓存三大核心技术,解决了传统视频生成模型在时长限制、误差累积和画面稳定性方面的根本问题。在50-100秒视频生成测试中全面超越现有基线模型,为AI视频生成领域开辟了新的技术路径。

AGILE自监督强化学习提升视觉语言模型感知推理能力

AGILE创新性地将智能体交互与拼图任务结合,通过自监督强化学习范式显著提升视觉语言模型的感知推理能力。该框架在无需人工标注的情况下,使模型在2×2拼图任务中准确率从9.5%提升至82.8%,并在9项通用视觉任务中平均性能提升3.1%,为解决多模态强化学习数据稀缺问题提供了可持续的解决方案。

ReinFlow开源框架:在线强化学习流匹配策略优化机器人性能

ReinFlow是由卡内基梅隆大学、清华大学和德克萨斯大学奥斯汀分校联合开发的开源在线强化学习框架,专门用于微调流匹配策略以优化机器人性能。该框架通过向确定性流路径注入可学习噪声,将流匹配过程转化为随机扩散过程,实现了高效的策略梯度优化。在多个基准测试中,ReinFlow相比预训练模型取得显著性能提升,同时大幅节省训练时间,为机器人学习领域提供了强大的工具支持。

Meta强化学习扩展定律研究:40万GPU小时揭示可预测训练与算力效率

Meta等机构通过40万GPU小时的大规模实验,建立了强化学习扩展定律的科学基础,提出了可预测的ScaleRL训练方案。该研究解决了强化学习在算力扩展时的关键问题,使训练效果从随机尝试转变为可预测过程,为大语言模型的强化学习后训练提供了系统化方法论和实用指导。