标签名称：LVLM

LVLM

空间智能再进化：Spatial-SSRL与LVLM推动自监督强化学习下的空间理解

上海人工智能实验室联合多所高校研发的Spatial-SSRL技术，通过创新的自监督强化学习范式，无需外部标注即可显著提升视觉大语言模型的空间理解能力。该技术基于RGB和RGB-D图像构建五种自监督任务，在Qwen2.5-VL和Qwen3-VL架构上实现平均3.89%-4.63%的性能提升，同时完美保持模型原有通用视觉能力，为自动驾驶和具身智能等领域提供了低成本、高效率的空间智能解决方案。

AI快讯

2025-12-01

Video-RAG：轻量高效的长视频理解与多模态对齐框架

Video-RAG是由厦门大学、罗切斯特大学和南京大学联合研发的轻量级长视频理解框架，采用多模态辅助文本检索增强生成技术，无需模型微调即可实现高效的视觉-语义对齐。该框架在多个基准测试中超越商业模型，为教育、安防、医疗等领域的视频分析应用提供了低成本、高可扩展的解决方案。

AI快讯

2025-10-20

AI导航

LVLM

空间智能再进化：Spatial-SSRL与LVLM推动自监督强化学习下的空间理解

Video-RAG：轻量高效的长视频理解与多模态对齐框架