Meta与港科大推出VL-JEPA:1.6B参数视觉语言模型,嵌入预测技术实现高效实时AI推理

AI快讯 2025-12-21

Meta与港科大联合发布VL-JEPA:1.6B参数视觉语言模型,嵌入预测技术引领高效实时AI推理新范式

VL-JEPA视觉语言模型架构示意图
由Yann LeCun提出的联合嵌入预测架构(JEPA)迎来了里程碑式突破。

近日,Meta、香港科技大学、索邦大学及纽约大学的研究团队共同推出了一款基于JEPA框架的视觉-语言模型——VL-JEPA。据项目负责人Pascale Fung教授介绍,这是首个能够实时处理通用领域视觉-语言任务的非生成式模型,标志着AI推理效率迈入了新阶段。

VL-JEPA模型工作原理图解

观看VL-JEPA实时工作演示视频:

VL-JEPA视频演示链接

与传统视觉-语言模型(VLM)通过自回归方式逐词生成不同,VL-JEPA创新性地预测目标文本的连续语义嵌入。这种在抽象表征空间中的学习机制,使模型能够聚焦于任务核心语义,有效规避了表层语言形式的冗余变化。

VL-JEPA与传统VLM对比分析
  • 研究论文:VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
  • 论文地址:https://arxiv.org/abs/2512.10942

该研究由Delong Chen(陈德龙)、Mustafa Shukor、Théo Moutakanni、Willy Chung四位学者共同主导,图灵奖得主Yann LeCun亦位列作者团队。

传统VLM的瓶颈与挑战

让AI系统理解物理世界是实现高级机器智能的关键。这种能力支撑着机器人、可穿戴设备等系统在现实环境中的学习、推理与规划。相关任务涵盖图像描述生成、跨模态检索、视觉问答、实时动作跟踪等,均要求系统具备低延迟、低成本的实时响应能力。

当前主流方案依赖基于token生成的大型视觉-语言模型。这类模型接收视觉与文本输入后,通过自回归方式生成文本响应。然而,该方法存在两大核心缺陷:

  • 训练成本高昂:模型需同时建模任务语义与表层语言特征,大量计算资源消耗在生成多样化的token序列上,而这些变化往往不影响最终输出的正确性。
  • 实时性能受限:逐token的解码机制必须在完整生成文本后才能揭示底层语义,导致不必要的延迟,难以满足实时动态更新的需求。

VL-JEPA:嵌入预测架构的技术革新

VL-JEPA通过将token生成学习转化为潜空间语义预测,实现了效率的飞跃。如图1所示,模型通过x-encoder将视觉输入映射为嵌入S_V,通过y-encoder将目标文本映射为嵌入S_Y,并由预测器学习映射关系(S_V,X_Q)→S_Y。

VL-JEPA架构示意图

训练目标定义于嵌入空间𝓛_{VL-JEPA}=D(Ŝ_Y,S_Y),而非传统的数据空间。推理时,预测的嵌入Ŝ_Y可按需通过y-encoder解码为文本。这种非生成式特性使VL-JEPA无需重建文本的表层细节,只需在嵌入空间预测抽象表征。

嵌入空间语义聚合示意图

在One-hot token空间中,同一输入的不同合理输出若token不重叠,会呈现近似正交的关系。而在嵌入空间中,这些多样化目标被映射到语义相近的邻近点,显著简化了目标分布,提升了学习效率。同时,模型摆脱了重型解码器的负担,训练效率大幅提升。

非自回归特性使VL-JEPA能在滑动窗口内以单次前向传递产生连续的语义嵌入流,延迟极低。这对实时动作跟踪、场景识别等应用尤为关键——嵌入流可由轻量级解码器选择性解码,实现高效及时的更新。

卓越的实验性能

在与传统token生成式VLM的对比实验中,VL-JEPA在零样本描述生成和分类任务上表现出一致的优越性,且可训练参数仅需约一半,验证了嵌入空间监督的高效性。

通过选择性解码策略(仅在嵌入流显著变化时解码),VL-JEPA将解码操作减少了约2.85倍,同时保持了以CIDEr分数衡量的输出质量。

选择性解码效率对比

模型采用两阶段训练:首先通过描述数据预训练建立视觉-语言对齐(VL-JEPA_BASE),随后进行监督微调赋予VQA能力(VL-JEPA_SFT)。

VL-JEPA_BASE在零样本分类和文本-视频检索任务中,平均准确率与检索召回率均超越CLIP、SigLIP2等对比模型。经微调后,VL-JEPA_SFT的分类性能显著提升,在组合视觉推理、复杂计数等VQA任务上达到了与InstructBLIP、Qwen-VL等成熟模型相当的水平。

VL-JEPA_BASE性能对比
VL-JEPA_SFT性能表现

观看VL-JEPA在机器人实时状态跟踪(RoboVQA)中的应用演示:

机器人实时跟踪演示

研究团队还通过消融实验验证了各模块的有效性。更多技术细节请参阅原始论文。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/f6dfee88-8dbc-4e33-8536-bda07bc3de6a

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章