ReinFlow开源框架:在线强化学习流匹配策略优化机器人性能
## ReinFlow开源框架:在线强化学习流匹配策略优化机器人性能
**作者简介**:本文第一作者为卡耐基梅隆大学机器人研究所研究生Tonghe Zhang,专注于机器人操作大模型与全身控制算法研究。合作者为德克萨斯大学奥斯汀分校博士生Sichang Su,研究方向为强化学习与通用机器人策略。指导教师包括清华大学与北京中关村学院的Chao Yu教授以及清华大学的Yu Wang教授。
今年,流匹配技术已成为机器人学习领域的焦点技术。作为扩散模型的一种优雅变体,流匹配以其简洁高效的特点,成为机器人底层操作策略的核心方法,并被广泛应用于前沿的视觉语言动作(VLA)模型中——从Physical Intelligence的先进模型,到LeRobot的SmolVLA,再到英伟达的GR00T以及清华大学最新发布的RDT2,无不体现了流匹配技术的重要性。
要进一步提升开源VLA模型的能力,除了增加数据多样性,强化学习同样是一条高效路径。来自卡内基梅隆大学、清华大学和德克萨斯大学奥斯汀分校的联合研究团队开发出了**ReinFlow框架——一个专门用于微调流匹配策略的在线强化学习系统。该研究成果已被NeurIPS 2025接收,并提供了完整的开源复现教程,包括核心代码、训练权重和详细结果**。
### 核心资源链接
- **论文标题**:ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
- **论文链接**:https://arxiv.org/abs/2505.22094
- **项目主页**:https://reinflow.github.io
- **开源资源**(代码、模型、数据、W&B训练记录):https://github.com/ReinFlow/ReinFlow
### ReinFlow算法核心优势
**理论基础扎实**:基于策略梯度理论严格推导,将确定性流转换为离散时间马尔可夫过程,实现对整条流匹配链的直接优化。
**训练效率卓越**:相比DPPO方法节省超过60%的训练时间,支持少步甚至单步推理,大幅提升计算效率。
**实验验证充分**:在多个基准测试任务中,相比预训练模型均取得显著性能提升。
**复现友好度高**:提供完整的训练教程、数据集、检查点和WandB指标,支持多种腿部运动与操作基准测试,以及在SimplerEnv环境中进行规模化并行仿真微调。
### ReinFlow技术原理深度解析
ReinFlow是一个针对常微分方程策略的通用策略梯度算法。要进行策略梯度优化,首先需要获取动作的边缘概率分布。对于流匹配模型而言,这与推理时动作生成的机制密切相关。
流匹配模型的标准推理过程包含三个关键步骤:初始动作源自高斯噪声;通过对速度场积分获得中间动作;最终动作与环境进行交互。
虽然理论上可以使用流匹配公式计算最终动作的似然函数,但由于流匹配动作通过积分定义,这种方法计算复杂度高且存在估计噪声,不适合强化学习应用。
**创新解决方案**:研究团队发现,虽然难以直接获得最终动作的边缘分布,但可以通过链式法则计算扩散链条的联合概率分布。然而,由于使用常微分方程积分,预训练流匹配模型的每一步转移概率都是狄拉克函数,仍然无法导出数值稳定的计算公式。
ReinFlow的核心突破在于:**向流策略的确定性路径中注入少量可学习的噪声**,将转移过程重新转化为随机扩散过程。其中,第一项是预训练获得的速度场,对应随机微分方程的漂移项;第二项是端到端训练的噪声注入网络,对应微分方程的扩散项。这样,由于相邻扩散步的转移概率都是高斯分布,流匹配的联合概率就能够被严格计算出来。
研究表明,**利用联合概率同样可以进行策略梯度优化**。根据相关定理,可以使用多种经典策略梯度方法对流匹配策略进行强化学习训练。
### 多场景性能评测
**足式运动控制任务**
在D4RL足式运动控制基准测试中,经过ReinFlow微调的Rectified Flow策略实现了**平均135.36%的净性能增长**。与当前主流的扩散RL微调方法DPPO相比,ReinFlow在保持相当性能的同时,极大减少了扩散步骤,**节省了82.63%的实际训练时间**。
**长程操作任务**
在接收稀疏奖励和高维输入的操作任务中(Franka Kitchen、Robomimic),ReinFlow微调的Shortcut Model策略在4步甚至1步去噪的情况下,相比预训练模型**平均净增40.34%的成功率**。其性能与使用DPPO微调的DDIM策略相当,但**训练时间平均节省23.20%**。
**VLA与大规模并行强化学习**
除了标准基准测试,研究团队还成功使用ReinFlow结合ManiSkill3框架,在SimplerEnv环境中微调了先进模型。在包含25种不同物品、十余种桌面设置和上百种初始化位姿的高度随机化场景中,ReinFlow显著提升了模型的抓取成功率。
### 系统性消融研究
研究团队进行了全面的消融实验,深入分析各因素对训练效果的影响:
**数据扩展vsRL微调**:实验表明仅靠增加数据或推理步数会较快达到性能瓶颈,而RL微调能实现进一步的性能突破。
**时间采样策略**:ReinFlow对均匀分布、Logit-normal分布和Beta分布等多种时间采样方式均表现出良好适应性。
**噪声条件与规模**:同时以状态和时间为条件生成噪声,有助于产生更多样化的动作。噪声过小会导致训练陷入瓶颈,达到一定阈值后能够探索新的策略空间。
**熵正则化**:可以进一步促进探索行为,提升算法性能。
### 全方位开源支持
ReinFlow的GitHub项目已全面开源并持续维护,欢迎通过邮件或GitHub与作者交流。项目包含:
**完整代码库**
- 支持Rectified Flow、Shortcut Models等多种流模型
- 涵盖OpenAI Gym(D4RL)、Franka Kitchen、Robomimic等多个经典RL环境
- 提供详细的安装指南和使用教程
**模型检查点**
- 提供所有实验的预训练模型
- 包含行为克隆和RL微调后的权重文件
- 支持一键加载和快速评估
**WandB指标透明化**
- 公开所有实验的训练曲线(损失、奖励、学习率等)
- 直接访问地址:https://wandb.ai/reinflow/projects
- 便于社区下载基线结果进行公平验证和对比分析
**详尽文档支持**
- 完整复现实验步骤指南
- 论文图表复现详细说明
- 关键超参数配置解析
- 自定义数据集/环境添加教程
- 常见问题解答与解决方案
### 未来发展展望
ReinFlow团队将在未来发布更多研究成果,包括:
- 更多大型视觉语言模型的微调结果
- 支持使用在线RL微调Mean Flow模型
- 探索该方法在sim2real和真实机器人强化学习微调中的应用
欢迎持续关注这一前沿技术的进一步发展!
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/da9b8f3a-96c0-4057-b21f-1115f54e83c8
本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。