ICLR 2026 | 异常需要定义！中传团队提出开放世界视频异常检测新范式

AI快讯 2026-02-14

视频异常检测（Video Anomaly Detection，VAD）是智能监控、智慧交通、网络审核等应用中的关键技术，旨在检测视频中偏离预期的异常事件。然而，现有方法将训练数据集中的固定类别作为隐式定义的 “异常”，这种方法的泛化能力不足，无法适应开放世界中动态变化的异常定义需求。

下面是三个异常定义发生变化的例子：

吸烟行为在加油站是异常行为，但是在吸烟区不是（随场景变化）
流感高发季不戴口罩是异常行为，其他时期则不是（随时间变化）
在某个机构里拍照直播既可能算异常、也可能不算（随需求变化）

这些例子表明，异常性并非事件本身的固有属性，而是由场景、时间、用户需求等因素决定的动态概念。

针对这一问题，中国传媒大学媒体融合与传播国家重点实验室的吴晓雨教授团队于 ICLR 2026 发表论文《Language-guided Open-world Video Anomaly Detection under Weak Supervision》，直面 VAD 领域的核心问题 —— 什么是异常？

论文标题：Language-guided Open-world Video Anomaly Detection under Weak Supervision
论文链接：https://arxiv.org/abs/2503.13160
GitHub 链接：https://github.com/Kamino666/LaGoVAD-PreVAD
数据集链接：https://www.modelscope.cn/datasets/Kamino/PreVAD

核心思路：视频与异常定义联合建模

^{不同视频异常检测范式对比}

现有方法将异常定义为为静态不变的视频的属性。如图所示，传统封闭集合（Closed-set）方法假设测试时的异常类别与训练时完全相同，开放集合（Open-set）方法虽然能够检测更多训练时未见类别的异常，但是某个事件异常与否是固定的。例如，若奔跑行为在训练数据中被标注为正常，那么在测试阶段模型也应当检测其为正常。这些方法在训练阶段建模视频 -> 异常标签的映射关系，以下式为优化目标：

其中 V、Y 分别是视频和异常标签，z 则是一个来自于训练数据的固定的异常定义。然而，在开放世界中，用户在图书馆、走廊等场景下可能期望将奔跑定义为异常行为。此时，条件概率 P (Y|V) 就发生了变化，导致优化目标与测试环境发生了偏差。

因此，研究团队假设：异常性由且仅由视频本身以及对异常的定义所决定，视频的异常性会随着异常定义的变化而变化，并提出在训练阶段让模型学习视频 + 定义 -> 异常标签的联合映射关系，要求模型在训练过程中学习不同定义下的异常检测：

其中，Z 表示异常定义。直观来看，只要确定了异常定义，那视频的异常性就能够确定，因此这种新的学习方式能够规避条件概率 P (Y|V) 变化带来的影响，作者在文中也给出了具体的证明。

技术方案

基于这一范式，作者提出了 LaGoVAD 模型，通过添加文本支路允许用户通过自然语言定义异常，并在训练期间使用不同的异常定义进行训练。

然而，新的学习范式导致模型需要建模一个更复杂的多模态空间 P (V,Z,Y)，而 VAD 领域本就数据稀缺、标签粒度粗，二者共同引发样本密度下降，导致模型过拟合风险上升。为了解决这一问题，作者从模型和数据两方面下手。

^{LaGoVAD模型}

对于模型，作者提出了两个正则化手段。

首先，通过困难负样本挖掘的方式，从仅有视频级别弱标签的数据中挖掘出与异常片段相近的正常片段，提升样本的质量，并增强异常与正常帧之间的边界判别性。
其次，通过语义向量检索来动态合成具有时序伪标签的长视频，提升样本数量，从而多样化视频异常时间段的分布，缓解模型对异常长度的偏见。

对于数据，作者通过结合多个基础模型 + 自动化标注流程构建了一个迄今为止最大规模的预训练视频异常数据集，包含 35K 具有多层级类别标签和异常文本描述的高质量数据。这部分数据已开源于 Modelscope 平台。

实验结果

在评估方面，现有方法通常只进行域内测试或进行一两个数据集的跨域测试，而 LaGoVAD 在 7 个数据集上进行了广泛的跨域测试以验证泛化性。包括以严重犯罪与暴力为主的 UCF-Crime 和 XD-Violence 数据集，交通异常为主的 DoTA、TAD 数据集，行人异常为主的 UBNormal 数据集和较为综合的 MSAD/LAD 数据集。其使用了两种评估协议：

1. 直接在测试集上进行零样本评估，每个测试集具有不同的场景和不同的异常定义，这个评价协议评估综合的泛化性。

2. 在某个测试集上使用多种异常定义进行零样本评估，每种异常定义都为从总异常类别中随机采样的一个子集，这个评价协议能专门评估模型应对动态异常定义的能力。

在评估协议 1 下，LaGoVAD 所有数据集上均取得了最先进的性能，超过了其他针对跨域泛化能力进行提升的方法，包括开放词汇的方法（OVVAD）、跨域方法（MultiDomain）、大模型方法（LAVAD）以及假设异常随场景变化的方法（CMRL），特别是在 XD-Violence 数据集上相较于现有最好结果有 20% 的提升，证明 LaGoVAD 具有强大的泛化能力。