人工智能研究
AGILE自监督强化学习提升视觉语言模型感知推理能力
AGILE创新性地将智能体交互与拼图任务结合,通过自监督强化学习范式显著提升视觉语言模型的感知推理能力。该框架在无需人工标注的情况下,使模型在2×2拼图任务中准确率从9.5%提升至82.8%,并在9项通用视觉任务中平均性能提升3.1%,为解决多模态强化学习数据稀缺问题提供了可持续的解决方案。
Meta强化学习扩展定律研究:40万GPU小时揭示可预测训练与算力效率
Meta等机构通过40万GPU小时的大规模实验,建立了强化学习扩展定律的科学基础,提出了可预测的ScaleRL训练方案。该研究解决了强化学习在算力扩展时的关键问题,使训练效果从随机尝试转变为可预测过程,为大语言模型的强化学习后训练提供了系统化方法论和实用指导。