AGILE自监督强化学习提升视觉语言模型感知推理能力

AI快讯 2025-10-20

AGILE自监督强化学习:突破视觉语言模型感知推理瓶颈

AGILE视觉语言模型感知推理能力提升

当前视觉语言大模型在多模态理解领域面临两大核心挑战:对图像细节信息的捕捉能力不足,以及高质量强化学习数据的严重匮乏。这些限制阻碍了模型视觉感知与逻辑推理能力的深度发展。

AGILE创新性地引入自监督学习机制,将智能体交互理念融入多模态大模型的强化学习过程。该框架通过"模型生成动作代码-环境视觉反馈"的循环交互模式,模拟人类观察、思考、学习的认知过程,显著增强模型的视觉理解与推理能力。

AGILE多模态大模型强化学习框架
  • 论文标题:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
  • 论文链接:https://arxiv.org/pdf/2510.01304
  • 项目页面:https://yuzeng0-0.github.io/AGILE/
  • 数据集:https://huggingface.co/datasets/YuZeng260/AGILE
  • 代码仓库:https://github.com/yuzeng0-0/AGILE
  • 研究团队:中国科学技术大学、上海人工智能实验室、华东师范大学、香港中文大学
AGILE主要工作框架示意图

图1:AGILE核心架构设计

核心技术:智能体交互与拼图任务融合

为解决数据扩展性难题,研究团队创造性选择拼图作为兼具感知与推理能力的代理任务。AGILE将拼图过程构建为可控可验证的交互系统:

  • 模型逐步骤生成Python动作代码(交换、观察、裁剪、缩放)
  • 环境执行代码并返回视觉反馈信息
  • 模型依据反馈持续优化拼图策略,循环直至任务完成

这一闭环交互机制形成了"观察-交互-反馈-学习"的智能体训练模式,使视觉语言模型能够在自监督环境下持续提升感知推理水平。

AGILE实施流程包含两个关键阶段:

冷启动阶段:利用Gemini 2.5 Pro生成1600条高质量专家拼图交互轨迹,指导模型掌握动作代码生成与交互逻辑,解决初始阶段模型操作能力不足的问题。

强化学习阶段:在15600张图像上开展拼图任务训练,采用GRPO优化算法,通过准确率、格式规范与交互效率三重奖励信号优化模型策略。

模型拼图过程中的感知推理行为展示

图2:拼图任务激发的模型感知推理行为

实验验证与性能分析

研究团队通过系统性实验验证AGILE的有效性,获得多项重要发现:

拼图任务性能突破:构建涵盖不同难度级别(2×2、3×3)与初始正确块数(L0-L7)的评估体系。在基础2×2任务中,AGILE将准确率从9.5%提升至82.8%,超越Gemini 2.5 Pro达36.4个百分点。在更具挑战的3×3拼图中,性能从0.4%跃升至20.8%,标志着模型能力质的飞跃。

拼图任务准确率对比数据

表1:拼图任务准确率详细结果

泛化能力验证:经过拼图训练后,模型在9项通用视觉任务(涵盖真实场景、高分辨率、细粒度感知、幻觉检测与多模态推理)中平均性能提升3.1%,充分证明拼图任务对通用视觉能力的迁移价值。

多基准测试性能对比

表2:跨基准测试综合性能评估

数据规模效应:研究显示,随着训练数据从0扩展至16K,拼图任务准确率从22.0%提升至82.8%,HRBench4K准确率增长2.0%,RealWorldQA提升1.8%。AGILE训练框架在数据扩增下持续有效,且拼图环境支持自动生成,实现近乎零成本的无限扩展,为多模态强化学习提供可持续的自监督解决方案。

数据规模对性能影响分析

图3:训练数据规模与性能关系分析

与传统QA数据对比:在20K常规问答数据中替换10K为拼图数据后,模型表现更优。这表明拼图任务提供更强的结构化感知与监督信号,为缓解多模态强化学习数据稀缺问题开辟了新途径。

技术价值与前景展望

AGILE通过交互式拼图代理与自监督强化学习的有机结合,在无需人工标注的前提下持续提升视觉语言模型的感知推理能力。这一创新范式证明了交互式拼图任务在突破数据瓶颈、强化多模态模型方面的可行性,为自监督强化学习在视觉语言理解领域的发展指明了方向。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/a4562d84-4755-4a0c-955a-7ff371abda83

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章