当前位置：首页 » 资讯 » 新科技 » 正文

告别全量扫描！浙大提出COIDO：破解多模态数据选择「高耗」难题

IP属地中国·北京 机器之心Pro 时间：2025-12-15 16:21:22

本文第一作者是二年级博士生闫熠辰，主要研究方向是多模态大模型的数据质量管理；通讯作者是李环研究员，主要研究方向包括人工智能数据准备、大模型高效推理与部署、时空大数据与模型轻量化等。

01 省流版：一张图看懂 COIDO
在深入技术细节之前，我们先用一张漫画来直观理解 COIDO (Coupled importance-Diversity Optimization) 解决的核心问题与方案：
正如钟离在漫画中所言，面对海量视觉指令数据的选择任务，传统方法需要遍历全部数据才能进行筛选造成大量「磨损」（高昂计算成本）。同时在面对数据重要性和多样性问题时，传统方法往往顾此失彼。而 COIDO 通过「耦合优化」的新契约，实现了以简驭繁的效果。
02 论文速览

论文题目：COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled importance-Diversity Optimization收录会议：NeurIPS 2025作者单位：浙江大学大数据智能团队、杭州电子科技大学、北京邮电大学项目代码：https://github.com/SuDIS-ZJU/COIDO论文链接：https://arxiv.org/abs/2510.17847
03 研究背景与动机 (Motivation)

多模态大语言模型（MLLM）的能力在很大程度上依赖于高质量的视觉指令微调（Visual Instruction Tuning）。然而，随着数据集规模的爆炸式增长（如 LLaVA-665K），在全量数据上进行微调带来了巨大的计算开销和冗余。
现有的数据筛选方法虽然旨在选取高质量子集，但普遍存在两个关键痛点：
高昂的筛选成本：现有方法通常要求目标 MLLM 对全量数据进行反向传播以计算重要性（如梯度、Loss），这导致筛选阶段本身的计算成本就极高，违背了「降本增效」的初衷。也就是说，为了筛选出少量有价值数据，我们还是得让全部的数据进入到目标 MLLM 当中并训练。优化目标的解耦：数据筛选通常需要兼顾重要性（importance）和多样性（Diversity）。现有方法往往将二者割裂处理——在训练阶段关注重要性，在筛选阶段通过独立算法处理多样性。这种解耦往往导致次优的权衡。
针对上述问题，本文提出了 COIDO 框架，旨在通过极低成本的训练，实现重要性与多样性的联合（耦合）优化。
04 方法论 (Mothodology)
COIDO 的核心思想是摒弃「遍历全量数据」的旧范式，转而采用轻量级评分器（Plug-in Scorer）配合小样本采样的策略。

1. 轻量级评分器与小样本学习：不同于需要全量微调 MLLM 的方法，COIDO 引入了一个轻量级的插件评分器（COIDO Scorer）。我们仅从全量数据中随机采样一小部分（例如 20%）作为训练集。评分器通过这部分数据学习整个数据集的分布特征，从而能够对剩余数据进行泛化评分，无需遍历全集进行训练。
2. 重要性与多样性的耦合优化 (Coupled Optimization)：这是本论文的核心创新点。本文将重要性和多样性的优化统一在了一个联合训练框架中，而非分阶段进行：
重要性损失 (L_I)：基于 Cross-Entropy Loss 的重加权。我们将评分器输出的得分 w 加权作用于 MLLM 的预测 Loss。根据反向传播原理，模型会自动降低高难度（高 Loss）样本的权重以最小化整体 Loss，从而使得评分器隐式地学习到样本的重要性（即：分数越低，样本越重要 / 越难）
多样性损失 (L_D)：基于谱聚类（Spectral Clustering）的方差最小化。我们在特征空间将数据聚类，并计算各簇（Cluster）平均得分的方差。通过最小化该方差，迫使模型在挑选高分样本时，不会过度集中于某一类，从而保证了数据的多样性分布。

05 实验 (Experiments)
本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 数据集上进行了广泛验证，并在 10 个主流多模态基准（包括 VQAv2, GQA, MMBench 等）上进行了测试。

1. 性能与效率的双重 SOTA：实验结果表明，COIDO 仅利用 20% 的数据进行训练和筛选，即可达到全量数据微调 98.2% 的平均性能。与现有的 SOTA 方法（如 ICONS、TIVE、COINCIDE）相比：
计算效率最高：COIDO 拥有最低的 Total FLOPs (4.2E)，显著优于需要全量遍历的方法。筛选质量最优：在相同的数据留存率下，COIDO 在各个 Benchmark 上均取得了极具竞争力的结果。

2. 强大的泛化性与迁移性：将在 LLaVA-665K 上训练好的 COIDO Scorer 直接应用于 Vision-Flan 数据集（Zero-shot Transfer），其表现甚至优于在该数据集上从头训练的评分器，证明了 COIDO 能够学习到通用的数据价值评估标准。
06 总结 (Conclusion)
COIDO 提供了一种全新的多模态数据筛选范式。它打破了「数据筛选必须昂贵」的刻板印象，证明了通过耦合优化和小样本学习，我们可以「以简驭繁」，用极小的计算代价精准定位高价值的视觉指令数据。这不仅为资源受限的研究者提供了高效微调 MLLM 的可能，也为未来大规模多模态数据的自动化清洗与治理提供了新的思路。
关注项目主页获取更多细节与代码实现！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

第二艘国产大邮轮爱达·花城号建造工程总进度超91%，拟年底交付

千问、元宝红包口令在微信内已可复制

Wintel再见！技术博主狂喷微软：连Intel都反省了 Windows却越来越烂

Lovart充值近4000元年费仅使用10天封号不退款？从Lovart的迷之操作谈中国AI平台的商业底线

千问一夜爆火，上演AI时代第一场“现象级”事件

机器人上春晚舞台“团建”，除了跳舞还能玩什么？

全站最新

第二艘国产大邮轮爱达·花城号建造工程总进度超91%，拟年底交付

千问、元宝红包口令在微信内已可复制

Wintel再见！技术博主狂喷微软：连Intel都反省了 Windows却越来越烂

Lovart充值近4000元年费仅使用10天封号不退款？从Lovart的迷之操作谈中国AI平台的商业底线

热门推荐

微信鸿蒙版App相机界面灰度更新，官方：优化拍照交互体验，提升功耗和性能

i茅台APP将于2月8日至9日维护升级

第二艘国产大邮轮爱达·花城号建造工程总进度超91%，拟年底交付

千问、元宝红包口令在微信内已可复制

Wintel再见！技术博主狂喷微软：连Intel都反省了 Windows却越来越烂

Lovart充值近4000元年费仅使用10天封号不退款？从Lovart的迷之操作谈中国AI平台的商业底线

千问一夜爆火，上演AI时代第一场“现象级”事件

机器人上春晚舞台“团建”，除了跳舞还能玩什么？

AI编程节省95%token，工具调用上限狂飙20倍，记忆系统登顶GitHub

内太阳系将迎新访客，刷新人类观测史上“最远近日点”纪录

大手笔AI投资之后：亚马逊、谷歌、Meta要花光现金流了？

千问APP春节大免单继续！用AI买盒马，一句话送到家

OpenAI强制「处死」GPT-4o！80万老粉全网拯救：它不是代码是爱人

机器人成精了？Figure 03下厨房，不经意关抽屉那一下，太像人了

教科书《性能之巅》作者入职OpenAI！迷弟总裁亲自欢迎