空间推理

RewardMap:多阶段强化学习优化多模态大模型视觉推理,提升地铁路径规划精度

西湖大学ENCODE实验室联合多所高校提出RewardMap框架,通过多阶段强化学习和难度感知的细粒度奖励机制,有效解决多模态大模型在地铁图等密集视觉信息处理中的奖励稀疏问题。该技术在地铁路径规划任务中实现显著性能提升,在空间推理评估中取得13.51%的改进,为高分辨率视觉推理任务提供了可复用的强化学习范式。