视觉语言模型
微观空间智能:AI驱动分子结构与药物研发的视觉语言模型基准挑战
来自中国顶尖高校与机构的研究团队联合发布了全球首个微观空间智能(MiSI)基准测试——MiSI-Bench。该基准包含16.3万个问答对和59万张分子图像,系统评估视觉语言模型(VLM)感知和推理原子、分子等微观实体空间关系的能力。研究揭示了当前顶级AI模型在微观空间推理上的潜力与局限:经过微调后,模型在复杂空间变换任务上可超越人类,但在依赖深度领域知识(如氢键识别)的任务上仍有差距。这项工作为AI在药物设计、材料科学等领域的应用奠定了重要评估基础,是迈向科学通用人工智能(Scientific AGI)的
Meta与港科大推出VL-JEPA:1.6B参数视觉语言模型,嵌入预测技术实现高效实时AI推理
Meta与香港科技大学等机构联合发布了VL-JEPA视觉语言模型,这是首个基于联合嵌入预测架构(JEPA)的非生成式模型。该模型通过预测文本的连续语义嵌入而非生成token,在抽象表征空间中学习,显著提升了训练和推理效率。VL-JEPA仅需约一半参数即可在零样本任务中超越传统VLM,并通过选择性解码将解码操作减少2.85倍,特别适用于机器人、可穿戴设备等需要低延迟实时响应的应用场景。
Thinking Machines Lab 全面开放Tinker API,新增微调与视觉模型功能,兼容OpenAI API
由前OpenAI CTO创立的Thinking Machines Lab宣布其Tinker API全面开放,取消内测限制。本次更新带来三大核心功能:支持对万亿参数模型Kimi K2进行微调;提供完全兼容OpenAI API标准的推理接口,实现即插即用;新增两款视觉语言模型(Qwen3-VL),支持图像内容处理与多模态任务微调。Tinker通过将复杂的训练基础设施抽象为API,让开发者无需管理算力资源,仅关注数据与算法,极大降低了大规模模型定制与应用的门槛。
北京人形机器人开源Pelican-VL 1.0:DPPO训练突破多模态理解,性能逼近闭源系统
北京人形机器人创新中心开源了具身智能视觉语言模型Pelican-VL 1.0,该模型采用创新的DPPO训练范式,在1000+ A800 GPU集群上训练,性能提升20.3%,超越同类开源模型10.6%,平均性能超过GPT-5和Google Gemini等闭源模型。模型具备强大的多模态理解、时空认知、具身交互和自我纠错能力,为机器人产业提供了可复用的训练范式和开源基础,推动具身智能从实验室走向产业化应用。
AGILE自监督强化学习提升视觉语言模型感知推理能力
AGILE创新性地将智能体交互与拼图任务结合,通过自监督强化学习范式显著提升视觉语言模型的感知推理能力。该框架在无需人工标注的情况下,使模型在2×2拼图任务中准确率从9.5%提升至82.8%,并在9项通用视觉任务中平均性能提升3.1%,为解决多模态强化学习数据稀缺问题提供了可持续的解决方案。
DeepSeek开源OCR模型实现视觉文本压缩,革新AI识别技术
DeepSeek开源革命性OCR模型DeepSeek-OCR,通过创新的光学压缩技术实现10倍无损文本压缩,在仅使用100个视觉token的情况下超越现有技术,支持近100种语言识别,为AI文本处理领域带来重大突破。
Video-RAG:轻量高效的长视频理解与多模态对齐框架
Video-RAG是由厦门大学、罗切斯特大学和南京大学联合研发的轻量级长视频理解框架,采用多模态辅助文本检索增强生成技术,无需模型微调即可实现高效的视觉-语义对齐。该框架在多个基准测试中超越商业模型,为教育、安防、医疗等领域的视频分析应用提供了低成本、高可扩展的解决方案。