浙大NeurIPS 2025提出COIDO框架:高效优化多模态数据选择,显著降低计算成本
浙大NeurIPS 2025重磅成果:COIDO框架革新多模态数据选择,计算成本锐减
核心作者简介:本文第一作者为浙江大学二年级博士生闫熠辰,深耕多模态大模型数据质量管理领域;通讯作者李环研究员,其研究方向涵盖人工智能数据准备、大模型高效推理与部署、时空大数据及模型轻量化等前沿课题。

在深入技术细节前,让我们通过一幅生动的漫画来直观把握COIDO(耦合重要性-多样性优化)框架所应对的核心挑战与创新方案。面对海量视觉指令数据的筛选任务,传统方法如同漫画中钟离所言,需要遍历全部数据,导致巨大的计算“磨损”(即高昂成本)。同时,传统方案在权衡数据重要性与多样性时常常顾此失彼。COIDO则通过“耦合优化”这一全新契约,实现了以简驭繁的卓越效果。
论文核心信息速递

- 论文标题:COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
- 收录会议:NeurIPS 2025
- 作者单位:浙江大学大数据智能团队、杭州电子科技大学、北京邮电大学
- 项目代码:https://github.com/SuDIS-ZJU/COIDO
- 论文链接:https://arxiv.org/abs/2510.17847
研究背景与核心动机

多模态大语言模型(MLLM)的性能高度依赖于高质量的视觉指令微调。然而,随着数据集规模呈爆炸式增长(例如LLaVA-665K),在全量数据上进行微调带来了难以承受的计算开销与数据冗余。
现有旨在选取高质量数据子集的筛选方法普遍面临两大痛点:
- 筛选成本高昂:现有方法通常要求目标MLLM对全量数据进行反向传播以计算重要性指标(如梯度、损失值),这导致筛选过程本身的计算代价就极其巨大,与“降本增效”的初衷背道而驰。
- 优化目标割裂:理想的数据筛选需要同时兼顾样本的重要性与多样性。然而,现有方法往往将二者解耦处理——在训练阶段聚焦重要性,在筛选阶段再通过独立算法处理多样性。这种割裂的优化方式常常导致次优的权衡结果。
针对上述挑战,浙江大学团队提出了COIDO框架,旨在通过极低成本的训练过程,实现数据重要性与多样性的联合(耦合)优化。
方法论:COIDO的创新架构
COIDO的核心设计哲学是彻底摒弃“遍历全量数据”的传统范式,转而采用轻量级插件评分器结合小样本采样的高效策略。

1. 轻量级评分器与小样本学习
与需要全量微调MLLM的笨重方法不同,COIDO引入了一个轻量级的插件评分器。该评分器仅需从全量数据中随机采样一小部分(例如20%)作为训练集。通过学习这小部分数据的分布特征,评分器便能泛化地对剩余数据进行精准评分,从而完全避免了遍历全量数据集进行训练的巨大开销。
2. 重要性与多样性的耦合优化
这是本论文最核心的创新点。COIDO将重要性和多样性的优化统一在一个联合训练框架内,而非分阶段处理:
重要性损失:基于交叉熵损失的重加权机制。评分器输出的权重分数被作用于MLLM的预测损失上。通过反向传播,模型会自发降低高难度(高损失)样本的权重以最小化整体损失,从而使评分器隐式地学习到样本的重要性(分数越低,样本越重要或越具挑战性)。
多样性损失:基于谱聚类的方差最小化。在特征空间中对数据进行聚类,并计算各簇平均得分的方差。通过最小化该方差,模型在挑选高分样本时会被迫避免过度集中于某一特定类别,从而有效保证了所选数据集的多样性分布。
3. 基于同方差不确定性的自适应平衡
为了解决多目标优化中手动调整权重超参数的难题,COIDO引入了基于同方差不确定性的自动加权机制。该机制能够根据训练过程中各目标内在的不确定性(噪声水平),动态调整重要性损失与多样性损失在总梯度中的贡献比例,自动寻找到二者之间的“黄金平衡点”,实现了优化目标的智能权衡。
实验验证:性能与效率的双重突破
研究团队在LLaVA-1.5-7B模型及LLaVA-665K数据集上进行了全面验证,并在VQAv2、GQA、MMBench等10个主流多模态基准测试上评估了性能。

1. 性能与效率均达SOTA水平
实验结果表明,COIDO仅利用20%的数据进行训练和筛选,即可达到全量数据微调98.2%的平均性能。与ICONS、TIVE、COINCIDE等现有前沿方法相比:
- 计算效率极致:COIDO拥有最低的总浮点运算次数(仅4.2E),显著优于需要全量数据遍历的方法。
- 筛选质量领先:在相同的数据留存率下,COIDO在所有测试基准上均取得了最具竞争力的结果。

2. 卓越的泛化与迁移能力
更具说服力的是,将在LLaVA-665K数据集上训练好的COIDO评分器,直接零样本迁移到Vision-Flan数据集上进行评估,其表现甚至优于在该新数据集上从头开始训练的评分器。这强有力地证明了COIDO能够学习到通用的、可迁移的数据价值评估准则。
总结与展望
COIDO框架为多模态数据筛选树立了一个全新的范式。它成功打破了“高质量数据筛选必然伴随高昂计算成本”的固有认知,通过巧妙的耦合优化与小样本学习策略,实现了“以简驭繁”——用极小的计算代价精准定位高价值的视觉指令数据。这项研究不仅为计算资源受限的研究者与开发者提供了高效微调多模态大语言模型的可行路径,也为未来超大规模多模态数据的自动化清洗、治理与价值挖掘开辟了崭新的思路。
探索更多:欢迎访问项目主页与开源代码库,深入了解COIDO的技术细节与实现。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/d62cdc21-9ba0-4e2f-b311-164b4eb37907