开源AI模型
空间智能再进化:Spatial-SSRL与LVLM推动自监督强化学习下的空间理解
上海人工智能实验室联合多所高校研发的Spatial-SSRL技术,通过创新的自监督强化学习范式,无需外部标注即可显著提升视觉大语言模型的空间理解能力。该技术基于RGB和RGB-D图像构建五种自监督任务,在Qwen2.5-VL和Qwen3-VL架构上实现平均3.89%-4.63%的性能提升,同时完美保持模型原有通用视觉能力,为自动驾驶和具身智能等领域提供了低成本、高效率的空间智能解决方案。
DeepSeek-OCR视觉压缩技术颠覆文本处理,效率提升十倍引AI界关注
DeepSeek-OCR通过创新的视觉压缩技术实现文本处理效率十倍提升,将1000字文章压缩为100个视觉token并保持97%精度,这一突破可能改变大语言模型的输入范式,引发AI社区对像素输入替代文本输入的深入讨论。