视觉语言模型

AGILE自监督强化学习提升视觉语言模型感知推理能力

AGILE创新性地将智能体交互与拼图任务结合,通过自监督强化学习范式显著提升视觉语言模型的感知推理能力。该框架在无需人工标注的情况下,使模型在2×2拼图任务中准确率从9.5%提升至82.8%,并在9项通用视觉任务中平均性能提升3.1%,为解决多模态强化学习数据稀缺问题提供了可持续的解决方案。

DeepSeek开源OCR模型实现视觉文本压缩,革新AI识别技术

DeepSeek开源革命性OCR模型DeepSeek-OCR,通过创新的光学压缩技术实现10倍无损文本压缩,在仅使用100个视觉token的情况下超越现有技术,支持近100种语言识别,为AI文本处理领域带来重大突破。

Video-RAG:轻量高效的长视频理解与多模态对齐框架

Video-RAG是由厦门大学、罗切斯特大学和南京大学联合研发的轻量级长视频理解框架,采用多模态辅助文本检索增强生成技术,无需模型微调即可实现高效的视觉-语义对齐。该框架在多个基准测试中超越商业模型,为教育、安防、医疗等领域的视频分析应用提供了低成本、高可扩展的解决方案。