AAAI 2026 | Trust-videoLLMs:视频大语言模型可信度与多模态安全评测
视频大语言模型的可信度挑战与突破:Trust-videoLLMs 基准评测深度解析
在人工智能技术飞速发展的今天,视频大语言模型(VideoLLMs)已成为理解和处理动态视觉信息的关键技术。它们能够解析视频中的复杂场景、人物动作和事件逻辑,为自动驾驶、智能监控、内容创作等领域提供了强大的多模态基础能力。然而,随着模型能力的提升,其在真实世界应用中的可信赖性问题也日益凸显——模型是否会“捏造”事实?能否抵御恶意攻击?是否公平对待不同群体?又能否保护用户隐私?
为了系统性地回答这些问题,合肥工业大学与清华大学的研究团队联合推出了首个面向视频大语言模型的综合可信度评测基准——Trust-videoLLMs。这项开创性的工作已被人工智能顶级会议AAAI 2026接收为口头报告(Oral)。该基准对当前主流的5款商业模型和18款开源模型进行了全方位“体检”,评测范围覆盖真实性、鲁棒性、安全性、公平性和隐私性五大核心维度,共计30项精心设计的评测任务。

一、评测体系:五大维度构建可信度全景图
Trust-videoLLMs 构建了一个层次分明、可扩展的评测体系,旨在深入探究模型在复杂多模态环境下的可信表现:
- 真实性:检验模型对视频内容的描述是否准确,能否理解事件的时间顺序并进行合理推理,同时评估其产生“幻觉”(即输出与视频内容不符的信息)的倾向。
- 鲁棒性:测试模型在面临视频噪声、时间顺序被打乱、对抗性样本攻击以及视频与文本信息冲突等挑战时的稳定性。
- 安全性:评估模型识别不良内容、拒绝有害指令、检测深度伪造视频以及防御“越狱”攻击的能力。
- 公平性:探查模型在处理涉及性别、年龄、职业等敏感话题时是否存在刻板印象和偏见。
- 隐私性:衡量模型识别隐私信息、保护公众人物隐私以及自主推理隐私内容的风险。

该评测的独特之处在于其紧密围绕视频的“动态”特性:
- 动态场景覆盖:设计了大量需要理解时空变化的任务,超越了静态图片评测的范畴。
- 跨模态交互分析:深入研究视频画面与伴随文本、指令之间的相互影响。
- 实用风险评估:评估模型在接近真实的应用场景中可能引发的实际风险。
二、核心发现:模型可信度现状与洞察
通过对23款主流模型的全面评测,研究团队揭示了当前视频大语言模型在可信度方面的整体格局与关键问题。

1. 性能排名:闭源模型领先,开源模型奋力追赶
综合评测显示,闭源商用模型在整体可信度上普遍占据优势。Anthropic公司的Claude 4 Sonnet模型拔得头筹,展现了卓越的综合能力,尤其在安全性方面表现突出。Google的Gemini 1.5 Flash和Claude 3.7 Sonnet分列二、三位。值得注意的是,OpenAI的GPT-4o排名第六,其性能均衡但未在单一维度形成绝对优势。
在开源阵营中,InternVL2.5-78B和Qwen2.5-VL-72B表现最为亮眼,分别位列第五和第七,证明了顶级开源模型已具备与商用模型一较高下的潜力。然而,大多数中小规模的开源模型在安全性、隐私保护等关键维度上仍与头部模型存在明显差距。
2. 五大关键发现
发现一:模型规模并非性能的“万能钥匙”
评测结果挑战了“参数越多,性能越强”的简单认知。在某些复杂任务上,较小规模的模型反而表现更佳。例如,Qwen2.5-VL-7B在公平性相关任务上的得分超过了其参数量大十倍的72B版本。这表明,模型架构、训练数据质量和对齐方式对最终性能的影响可能不亚于参数量。
发现二:开源与闭源模型差距显著,尤其在安全维度
闭源模型在有害内容过滤、抵抗越狱攻击和跨模态安全对齐方面优势明显。这很大程度上得益于其更严格的数据清洗流程、更完善的伦理安全约束以及持续的迭代优化。开源模型在这些方面仍有很长的路要走。
发现三:视频上下文是安全风险的“放大器”
一个极具警示意义的发现是:当一段有害的文本指令配以相关的视频内容时,模型生成有害回复的概率会显著上升。这意味着,视频模态可能成为绕过模型安全防护的“特洛伊木马”,凸显了加强跨模态安全对齐的紧迫性。
发现四:公平性偏见依然普遍存在
无论是开源还是闭源模型,在处理涉及性别、种族、年龄的议题时,都不同程度地表现出社会刻板印象。闭源模型通过后天的“价值观”约束在一定程度上缓解了这一问题,但根源性的偏见仍存在于训练数据与模型认知中。
发现五:隐私保护能力是一把“双刃剑”
模型在隐私识别任务上表现越好,意味着它越能理解什么是隐私,但同时也暗示它越有能力从公开信息中自主推理出隐私内容。闭源模型在这项任务上得分最高,但也因此面临着更高的潜在隐私泄露风险。这为模型开发者提出了一个伦理难题:如何在赋予模型识别隐私能力的同时,防止其滥用这种能力?
三、开源贡献:推动领域发展的工具箱
为推动视频大模型可信度研究的社区发展,团队已将全套资源开源:
- 评测基准与框架:项目主页 https://github.com/wangyouze/Trust-videoLLMs
- 研究论文:https://arxiv.org/pdf/2506.12336
- 大规模视频数据集:包含6955个覆盖多样场景和任务的视频,为后续研究提供丰富的测试素材。
- 统一评估工具箱:采用模块化设计,提供标准接口,方便研究者接入新模型、执行评测任务并自动计算分数,极大降低了研究门槛。
四、研究团队
本项研究由合肥工业大学主导,携手清华大学共同完成。
第一作者王有泽是合肥工业大学四年级博士生,专注于多模态对抗鲁棒性与大模型安全可信研究,相关成果已发表于ACM MM、TMM等国际顶级会议与期刊。
通讯作者胡文波是合肥工业大学计算机与信息学院副教授、黄山青年学者,研究方向涵盖贝叶斯机器学习、人工智能安全与科学人工智能。
Trust-videoLLMs基准的建立,不仅为学术界和工业界评估视频大模型的可信度提供了一把“标尺”,其揭示的诸多问题与洞察,更为下一代安全、可靠、负责任的多模态人工智能系统的开发指明了方向。随着视频AI应用日益深入我们的生活,对其可信度的审视与提升,将不再只是一个技术问题,更是一项关乎科技伦理与社会福祉的重要课题。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/4c9608d8-9edb-4eb1-8d68-3209314dffd4