RewardMap:多阶段强化学习优化多模态大模型视觉推理,提升地铁路径规划精度
RewardMap:多阶段强化学习优化多模态大模型视觉推理,提升地铁路径规划精度

西湖大学ENCODE实验室联合同济大学、浙江大学和新加坡国立大学的科研团队,在大模型强化学习与多模态推理领域展开深度合作,共同推进视觉推理技术的前沿发展。
近年来,大语言模型与多模态大模型在复杂场景理解和推理任务中展现出卓越能力,但在处理高密度视觉信息时仍面临严峻挑战。当面对结构复杂的地铁线路图时,模型能否准确识别线路、站点并完成跨线路路径规划,成为衡量其视觉理解能力的重要标尺。
研究团队的前期工作ReasonMap首次系统揭示了当前最先进多模态大模型在地铁图路径规划中的局限性。模型经常出现线路识别错误、站点遗漏、路线重复等推理幻觉,暴露了在密集视觉信息处理方面的不足。
深入研究发现,传统强化学习在地铁图这类高分辨率、信息密集场景下面临奖励稀疏困境。大多数输出无法获得有效反馈,仅有的正确样本又导致训练过程不稳定,严重制约了模型在长路径规划任务中的表现。
为此,团队创新性地提出RewardMap框架——一个专门针对地图推理任务设计的多阶段强化学习系统。该框架通过难度感知的细粒度奖励机制和渐进式课程训练策略,系统性提升多模态大模型的视觉理解与空间推理能力。
RewardMap技术框架详解
RewardMap的核心创新在于将复杂的路径规划任务分解为可度量子目标,并通过多阶段训练策略实现稳定学习。框架包含两大关键组件:
难度感知细粒度奖励机制:通过对训练样本施加基于地图复杂度和问题难度的权重调整,确保模型在不同难度任务中获得均衡训练。
多阶段强化学习流程:利用ReasonMap-Plus数据集中的简单任务进行冷启动训练,逐步过渡到复杂的地铁路径规划任务,有效提升训练效率和稳定性。
奖励函数设计采用三部分结构:格式合规性、最终正确性和细节准确性,其中细节项权重设置为0.5,既保证梯度稳定性,又避免过度影响总体目标。
ReasonMap-Plus数据集构建
研究团队在ReasonMap基础上构建了增强版数据集ReasonMap-Plus,涵盖30个城市的4018个问题样本。数据集精心设计了五类细粒度题型,包括局部计数、全局计数和真伪判断等,为强化学习提供密集监督信号。
数据集采用科学的难度分级和均衡的城市分布,确保训练和测试过程的全面性和代表性。
实验成果与性能提升
RewardMap在多个基准测试中展现出显著优势。在空间推理评估SpatialEval上取得13.51%的性能提升,在所有测试基准上均表现出稳定改进。
定性分析显示,经过RewardMap训练的模型在线路识别准确性、站点定位精度和路径规划合理性方面均有明显改善,有效减少了视觉混淆和推理幻觉现象。
技术影响与未来展望
RewardMap不仅在地铁图路径规划任务中表现出色,更为高分辨率、强结构视觉任务提供了一套可复用的强化学习范式。其核心价值在于:
- 将复杂视觉推理任务系统化分解
- 通过难度建模优化样本分布
- 建立从感知到推理的渐进学习路径
未来,基于地图数据的训练方法有望在多模态大模型的不同发展阶段发挥更大作用,推动通用视觉理解能力的持续提升。
研究资源
- 论文标题:RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
- 论文链接:https://arxiv.org/abs/2510.02240
- 项目主页:https://fscdc.github.io/RewardMap/
- 开源代码:https://github.com/fscdc/RewardMap
- 数据集:https://huggingface.co/collections/FSCCS/reasonmap-688517b57d771707a5d64656
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/d236d09f-6e50-4698-a270-c9603c56fa03