智能体交互

AGILE自监督强化学习提升视觉语言模型感知推理能力

AGILE创新性地将智能体交互与拼图任务结合,通过自监督强化学习范式显著提升视觉语言模型的感知推理能力。该框架在无需人工标注的情况下,使模型在2×2拼图任务中准确率从9.5%提升至82.8%,并在9项通用视觉任务中平均性能提升3.1%,为解决多模态强化学习数据稀缺问题提供了可持续的解决方案。