通用的数据清洗框架:利用多模态大模型检测数据集中的恶意样本
论文题目:
VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models
论文链接:
https://arxiv.org/pdf/2309.16211.pdf
论文代码:
https://github.com/zihao-ai/vdc
论文网站:
https://versatile-data-cleanser.github.io
一、 背景介绍
以数据为中心的人工智能(DCAI)这一新兴领域强调了数据在构建AI系统的过程中扮演着至关重要的角色。然而,现实世界中的数据处理面临着诸多挑战,尤其是在数据质量和可靠性方面。数据集中可能存在被恶意篡改的样本,例如通过后门攻击植入的有毒样本、众包标注中产生的噪声标签,甚至这两类的混合体(不同类型的脏样本示例如下图所示)。这些“脏样本”的存在使得模型变得脆弱且不可靠,严重影响了模型的性能和安全性。
在此背景下,检测并清除数据集中的脏样本成为了提升数据集质量和可靠性的关键步骤。尽管已有研究提出了针对噪声标签或有毒样本的检测方法,但这些方法在泛化能力上往往存在局限,特别是在处理来自不同领域的脏样本时。例如检测噪声标签的方法往往不能检测到有毒样本,反之亦然。
发表于ICLR2024的《VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models》这篇工作提出了一种创新的解决方案。作者发现,不同类型的脏样本之间存在一个共同点,即图像内容与其关联标签之间的视觉-语言语义不一致性。基于这一发现,研究者们提出了一种通用的数据清洗框架——Versatile Data Cleanser(VDC),旨在通过利用多模态大模型在跨模态对齐和理解方面的能力来捕捉语义不一致性,从而准确的检测出数据集中存在的脏样本。
二、 方法介绍
2.1 视觉语言不一致性
本文的核心理念是识别和利用图像内容与其关联标签之间的视觉-语言不一致性(visual-linguistic inconsistency)。这种不一致性通常表现为图像的视觉特征与文字描述的标签之间存在语义上的不匹配。例如,一张标记为“airplane”的图片实际上显示的是一辆“car”,即使图片中被添加了投毒噪声(如下图所示)。鉴于多模态大模型的迅速发展,其具有强大的跨模态理解和推理能力,因此作者提出利用多模态大模型(MLLM)来捕获这种不一致性,提出了基于MLLM的通用数据清洗器Versatile Data Cleanser (VDC)。
2.2 Versatile Data Cleanser (VDC) 框架
VDC框架由以下三个主要模块组成(如下图所示):
- 视觉问题生成 (Visual Question Generation, VQG) 模块: 该模块基于图像和关联标签生成一系列有洞察力的问题。这些问题旨在从图像中提取深层次的语义信息,包括一般性问题和标签特定问题。
- 视觉回答 (Visual Question Answering, VQA) 模块: 该模块利用MLLM来回答VQG模块生成的问题,从而获取图像内容的语义信息。通过这种方式,VDC能够理解图像的实际内容,并将其与标签进行比较。
- 视觉答案评估 (Visual Answer Evaluation, VAE) 模块: 该模块评估MLLM提供的答案与预期答案之间的匹配程度,从而判断图像内容与标签之间的一致性。如果答案的匹配程度低于某个阈值,则该样本可能被认为是脏样本。
2.3 视觉问题生成 (Visual Question Generation, VQG) 模块
VQG模块是VDC框架的第一步,它负责生成与给定标签相关的问题。这些问题设计用来揭示图像内容和标签之间的潜在不一致性,为后续的问题回答和答案评估模块提供基础。包括一般性问题和标签特定问题两类问题。
一般性问题 (General Questions)
VQG模块首先生成一些一般性问题,这些问题旨在从全局角度获取图像的整体语义理解。例如,对于一张图像,一般性问题可能包括“请简要描述这张图片”或“这张图片的主要元素是什么”。这些问题不依赖于特定的标签信息,而是旨在从图像中提取普遍的视觉特征。对于一般性问题,VQG模块可以利用预定义的问题模板来生成。这些模板是固定的,可以适用于各种不同的图像和标签。
标签特定问题 (Label-specific Questions)
除了一般性问题之外,VQG模块还会根据图像的关联标签生成一系列标签特定问题。这些问题更加细致和具体,旨在深入挖掘图像中与标签直接相关的特征和属性。例如,如果图像的标签是“飞机”,那么一个标签特定问题可能是“图像中的物体是否设计用来在空中飞行?”这类问题需要结合图像的视觉内容和标签的语义信息来生成。对于标签特定问题,VQG模块利用LLM来自动生成问题。通过精心设计的提示(prompt),模型能够根据标签的语义内容生成相关的问题。这种方法的优势在于它能够自动适应大量的标签,而不需要人工为每个标签单独设计问题。
2.4 视觉问答 (Visual Question Answering, VQA) 模块
视觉问答(VQA)模块是VDC框架中负责获取图像语义信息的关键部分,它通过多模态大模型(MLLM)来回答由视觉问题生成(VQG)模块提出的关于图像的各种视觉问题。VQA模块首先接收来自VQG的图像和问题,然后利用MLLM的能力,结合图像的视觉特征和问题的文本信息,生成详细且准确的回答,以便后续的视觉答案评估(VAE)模块能够有效地评估图像和标签之间的一致性,从而识别出潜在的数据集中的脏样本。VQA模块的性能对于整个VDC框架至关重要,因为它直接影响到数据清洗的准确性和AI模型的可靠性。
2.5 视觉答案评估 (Visual Answer Evaluation, VAE) 模块
视觉答案评估(VAE)模块是VDC框架中负责评估由视觉问题回答(VQA)模块生成的答案与预期答案之间一致性的组件。该模块的目标是通过评估答案的准确性来检测图像和其关联标签之间的视觉-语言不一致性,从而判断样本是否为脏样本。VAE模块接收VQA模块提供的答案以及VQG模块生成的问题的预期答案。
对于每个问题-答案对,VAE模块评估MLLM生成的答案是否与预期答案一致。对于标签特定的问题,这通常涉及到字符串匹配或模式识别,以确定答案是否符合预期。对于一般性问题,答案可能不是简单的“是”或“否”,而是需要更复杂的语义理解。在这种情况下,VAE模块可能使用专门的评估技术或额外的MLLM来确定答案的相关性和准确性。VAE模块根据所有问题-答案对的得分计算一个总体匹配得分。如果这个得分低于预设的阈值,则认为样本可能包含错误或不一致性,从而将其标记为脏样本。
三、 实验验证
3.1 实验设置
实验在多个公认的基准数据集上进行,包括CIFAR-10、ImageNet-100和ImageNet-Dog等。这些数据集广泛用于图像识别和分类任务,且具有不同的复杂性和多样性,从而确保了实验结果的广泛适用性。
3.2 脏样本生成
为了模拟现实世界中的数据污染情况,作者采用了多种方法生成脏样本,包括后门攻击生成投毒样本(如BadNets、Blended、SIG、TrojanNN、SSBA和WaNet)和噪声标签模型生成噪声样本(对称和非对称噪声)。这些脏样本被引入到数据集中,以测试VDC框架的检测能力。实验采用的投毒样本示例如下所示。
3.3 实验结果
实验结果显示,VDC框架在各种类型的脏样本检测上均表现出色。无论是面对可见的触发器攻击还是隐蔽的后门攻击,VDC都能保持高TPR,同时维持低FPR,显示出良好的泛化能力和鲁棒性。此外,VDC在处理不同类别和数量的脏样本时,其性能几乎没有波动,这表明了其对不同数据集噪声的适应性(更多结果请查看原文)。
四、 总结与展望
本文提出一种基于多模态大模型的通用数据清洗器,旨在通过检测和清除数据集中的视觉-语言不一致性来提升数据质量和AI模型的可靠性。该框架通过视觉问题生成、视觉问答和视觉答案评估三个模块,有效地识别并处理了包括有毒样本和噪声标签在内的脏样本。在多个基准数据集上的实验验证了VDC的高效性和泛化能力,展示了其在DCAI领域的重要应用潜力。随着大模型技术的不断发展,VDC框架有望在未来的数据清洗和质量提升工作中发挥更大的作用,为构建更加智能和可靠的AI系统提供坚实的数据基础。
Illustration From IconScout By IconScout Store