鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

谷歌通过数据增强、对比调优，减少多模态模型幻觉

发布于 2024-8-22 09:59

浏览

0收藏

随着Gemini、GPT-4o等模型的出现，具备看、听、说的多模态大模型成为了新的主流。由于训练数据复杂、模型架构过于复杂，在生成、识别内容时很容易出现错误描述也称为“幻觉”，例如，当看到一张包含刀、叉和勺子的餐具图片时，模型会错误地描述为牙签。

为了解决这个难题，谷歌DeepMind、谷歌云AI研究、向量研究所和皇后大学的研究人员通过数据增强和对比调优的方法开发了HALVA模型。

论文地址：https://arxiv.org/abs/2405.18654

谷歌通过数据增强、对比调优，减少多模态模型幻觉-AI.x社区

HALVA的核心思想是通过对比学习，来提高模型对真实和幻觉对象的区分能力。这种方法利用正确的对象描述和对应的幻觉描述来训练多模态模型，引导模型识别和生成与输入图像更加一致的描述。

谷歌通过数据增强、对比调优，减少多模态模型幻觉-AI.x社区

首先，HALVA接收来自生成数据增强模块的输出，这些输出包括正确描述和幻觉化描述的对。这些成对的数据点是通过对原始图像进行智能的数据增强生成的，其中包括替换图像中的对象集合，引入了不存在的共现概念。例如，一个原本包含水果篮的图像可能会被增强为包含一个虚构的魔法球。

然后，HALVA将视觉-语言输入对送入预训练的多模态模型中。这些输入包括图像特征和相关的语言描述。多模态模型会对每个输入计算输出序列的概率分布，生成两组概率：一组对应于正确的描述，另一组对应幻觉错误的描述。

HALVA定义了一个对比损失函数，该函数基于正确描述和幻觉化描述的相对概率。损失函数的目标是最大化正确描述的概率，同时最小化幻觉化描述的概率。通过反向传播和梯度下降，模块优化损失函数，调整模型参数以减少幻觉描述的生成。

谷歌通过数据增强、对比调优，减少多模态模型幻觉-AI.x社区

为了保证模型在调整过程中不会偏离其原始的预训练状态，对比调整模块引入了KL散度作为正则化项。这一步骤确保了模型在减轻幻觉化问题的同时，保持了其在一般视觉-语言任务上的性能。

在整个对比调整过程是端到端的，从输入的视觉-语言对到输出的损失函数，整个过程是连贯的，允许模型在训练过程中学习如何更好地区分真实和幻觉对象。

训练数据方面，HALVA是基于VG提供了丰富的视觉信息和语言描述，包含108K张图像及其详细注释的对象中心图像数据集。正确数据描述是Gemini Vision Pro通过 VG 数据集生成。

谷歌通过数据增强、对比调优，减少多模态模型幻觉-AI.x社区

幻觉描述则比较麻烦一些，通过VG的封闭和开放两个数据集，封闭集是基于 VG 数据集中对象的已知共现关系来生成的，而开放集则是通过直接提示大语言模型来生成与原始对象共现的新对象。在生成了正确描述和幻觉描述的样本对之后，用于训练HALVA模型。

研究人员在CHAIR、MME - Hall、AMBER和 MMHal – Bench等平台中对HALVA进行了综合评估。结果显示，HALVA在减少模型幻觉方面非常出色，同时在一般视觉-语言任务上也表现出了良好的性能。

谷歌通过数据增强、对比调优，减少多模态模型幻觉-AI.x社区

例如，在AMBER数据集上，HALVA在幻觉率指标上明显优于基础模型LLaVA-v1.5；在MMHal – Bench测试中，HALVA比基于RLHF、SFT 或 DPO的方法更有效地缓解了模型的幻觉问题。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/TBNE6zFm8Zkx6GqSjcFD1A

标签

赞

收藏

回复

举报

回复

相关推荐

CVPR 2024 | 通过细粒度人类反馈对齐数据，提高多模态大模型可信度

zhangyannni • 1948浏览 • 0回复
CVPR 2024 | 多模态大模型幻觉原因找到了！

zhangyannni • 3307浏览 • 0回复
谷歌推出多模态视频模型，自动生成丰富动作视频

Aceryt • 1993浏览 • 0回复
谷歌调优MusicLM的秘密：用户偏好数据

51CTO内容精选 • 1388浏览 • 0回复
多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图

Crystalcxt • 1667浏览 • 0回复
谷歌创新框架：从非结构化数据，实现多模态学习

Aceryt • 1073浏览 • 0回复
检索增强型多模态思维链推理用于大型语言模型

AIRoobt • 2090浏览 • 0回复
如何检测并尽量减少AI模型中的幻觉？

51CTO内容精选 • 1904浏览 • 0回复
解决大型多模态模型的幻觉问题，新方法AITuning助力AI更可靠

AI论文解读 • 1134浏览 • 0回复
如何获取高质量数据进行代码指令调优？

NLP工作站 • 1023浏览 • 0回复
多模态大模型数据分析与实践

zhcs333 • 2024浏览 • 0回复
多阶段对比学习+多专家CLIP实现细粒度多模态表征学习

海因斯DK • 1488浏览 • 0回复
RAG：如何通过实时数据提升AI准确性并减少“幻觉”

Halo咯咯 • 3767浏览 • 0回复
多模态大模型数据构造方法

shizhi02 • 951浏览 • 0回复
大模型面试实战！Prompt调优

ermulong • 894浏览 • 0回复
基于谷歌Gemini多模态模型实现PDF文档自动化处理

51CTO内容精选 • 645浏览 • 0回复
减少LLM幻觉的五大技巧和方法

51CTO内容精选 • 547浏览 • 0回复
EVEv2.0，视觉语言分开编码，多模态视觉语言理解；视觉信息引导与标记逻辑增强减少大语言模型幻觉

AI研究前瞻 • 294浏览 • 0回复
时序+图像+文本，多模态增强的时序预测模型

海因斯DK • 164浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

高盛：DeepSeek等中国大模型，加速AI对全球GDP贡献 2天前发布
清华、中南开源3D交互实体AI Agent LEGENT 3天前发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

一文说清楚"知识蒸馏"（让“小模型”也能拥有“大智慧”） 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

被 DeepSeek 带火的蒸馏到底是啥 0回复

上一篇：微软开源Phi-3.5：支持手机、平板电脑，性能超Llama 3.1

下一篇：谷歌将大模型集成在实体机器人中，能看、听、说执行57种任务

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载