国产大模型登顶多模态榜单！解决幻觉、跨语言两大难题-51CTO.COM

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

国产大模型，登顶多模态榜单！

昆仑万维最近在大模型圈可谓“风生水起”。

几天前刚被曝挖来了AI大牛颜水成，出任天工智能联席CEO。

现在，其「天工」大模型Skywork-MM又登顶多模态榜单，在腾讯优图实验室联合厦门大学开展的多模态大语言模型（Multimodal Large Language Model，简称“MLLM”）测评中，综合得分排名第一。

△MME感知榜第一，认知榜第二，总榜第一

腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜，包含感知、认知两个总榜单以及14个子榜单。

MME数据集是一个最近发布的多模态语言模型测评基准。

它通过大型多模态语言模型在涵盖感知和认知任务的14个子任务上的表现来全面评估模型。

而Skywork-MM只用了不到50M的图文数据——远小于其他大模型（>100M），拿下了第一（榜单地址见文末）。

如何做到？

主要是解决了现有多模态大模型中颇为困扰的两大问题：

幻觉和较弱的跨语言能力。

多模态两大难

所谓幻觉，是指多模态大模型在回答问题时，倾向于肯定的答案，即使我们所给的问题中根本没有相关特征。

例如面对下面这张图像。

如果问它“这个男人的头发是什么颜色？”，即使优秀如LLaVA、MiniGPT-4等多模态大模型，也会“睁着眼说瞎话”：黑色。

再如这张图片：一个玻璃杯、一个茶杯、一个浴缸里面有条小金鱼。

如果问它“图片中的所有物品都是黄色的吗？”，没有谁能答对。

至于跨语言能力问题，主要表现在应对中文场景中的问题回答不尽如人意。

比如辨认下面这张图片是“科罗拉多大峡谷还是苏州园林”时，3个双语多模态语言模型：LLaVA、 LLaVA-Chinese、ImageBind-LLm全部回答成前者。

问它们从哪里能观赏到该景色，就更是一言难尽了。

甚至有时，模型还会直接回复纯英文。

这两大问题严重影响着现有多模态大模型的性能。

怎么解决？

三方面入手

昆仑万维天工大模型Skywork-MM从分别从数据、模型和训练流程三方面入手。

其中重点是数据和模型。

先看数据。

首先对于幻觉问题。

从本质出发，该问题主要是整个模型训练过程中使用的数据太偏重正样本。

也就是说，模型描述的都是图片中有什么，而没有学习图片中没有什么。

如果训练过程中再碰上弱相关的图文数据，模型就更加放飞联想、形成较严重的幻觉。

为此，天工大模型多模态团队提出以图像为中心，喂给模型既包含正样本也包含负样本的多模态指令微调数据：

这使得模型既能够学习一张图像中存在的视觉特征，也能学习到不存在的特征。

这样，模型的指令跟随能力便得到增强：问什么答什么，没有的也不胡编。

其次，对于跨语言中的中文问题，一共有两个解决思路：

（1）增强中文的指令追随能力。

由于“微调指令的文化gap很小”，只需将上面解决幻觉问题中构造的英文指令微调数据翻译成中文使用。

（2）增强中文相关场景的识别能力。

需要注意的是，在解决跨语言问题时，我们重点关注的点是文化偏差——

即通用的视觉特征和语言特征可以通过共有的语料进行关联，但是各个语言文化中专有的视觉特征和语言特征的关联需要大量特殊学习。

因此我们需要加入大规模的中文图像-文本对数据。

不过，这样的中文语料并不好收集，一是囿于数据质量，而是困于数量。

怎么办？

引出Skywork-MM在模型架构上的改进。

为了不让低质量的图文数据影响模型效果，天工大模型多模态团队在设计上选择将视觉模型和大语言模型完全冻结。

这样做的目的是保持视觉模型在前置CLIP训练中学习到的视觉特征不损失，以及大语言模型的语言能力不损失。

同时，为了更好的关联不同文化环境中的视觉特征和语言特征，模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。

如下图所示，Skywork-MM一共包含四大模块：

给定一张图像，LVM先提取图像特征，然后将图像特征输入到重采样器中，计算出可为LLM输入的token。

LLM接收token和指令提示（如果有），然后输出图像描述或对问题的回答。

至于训练流程，主要分为两阶段：

第一阶段使用双语的大规模图文对数据进行图像概念和语言概念的关联学习。

第二阶段使用多模态微调数据进行指令微调。

此时，各种类型的指令微调数据（包括正样本和负样本）就组成统一的Chat Prompt形式。

Ps. 上图中的重采样器和LoRA适配器标记了火焰，它们是可训练的。

登顶MME综合榜单

如下表所示，Skywork-MM一共用了大约50M图文数据，这比当前的同类大模型都要少得多。

但经过以上数据、模型和训练流程三方面的改进，Skywork-MM效果拔群。

如下图所示：

它能够准确理解图片中的反常行为；

也能听明白一些特殊的指令（根据选项回答问题，根据风景写诗，写广告词，写获奖感言等等）；

对于中文场景问题，表现得也不再像个“歪果仁”了。

可谓拥有了良好的指令跟随和中文场景问答能力。

因此像第一段展示的那些幻觉和跨语言问题，它完全可以信手拈来：

孟非没有头发就没有，不会说成黑色；苏州园林、非诚勿扰节目一眼认出；三个物体没有一个是黄色。

而如开头所示，在与其他模型的横向测试中，Skywork-MM直接荣登MME榜单综合第一，包括感知榜单第一（且与第二名有着43分的差距）、认知榜单第二。

这个榜单大约今年6月上线、目前GitHub 4k标星，是当前多模态大模型最新的测评基准之一。

它一共包含14个子任务，其中感知任务除OCR，还包括粗粒度和细粒度对象识别，前者识别对象的存在与否、数量、位置和颜色；后者识别电影海报、名人、场景、地标和艺术品。

认知任务则包括常识推理、数值计算、文本翻译和代码推理。

下表显示Skywork-MM在该榜单感知任务中的OCR+粗粒度识别上的具体得分：

细粒度识别得分：

以及认知任务得分：

可以看到，能与Skywork-MM偶尔“平分秋色”的只有MiniGPT-4和BLIP系列。

而除了MME榜单，Skywork-MM还在另一多模态基准MMBench的开发集上表现出色：

进步空间

需要注意的是，尽管昆仑万维天工大模型这一最新成果，代表了当前多模态大模型的最高水平，但它还是存在很多进步空间。

例如：

文化和语言障碍仍然存在，还需要我们开发一种多语言的LVM，更有效地提取不同文化特有的视觉特征，或者再收集更多各语言的大规模、高质量图像文本对，确保模型准确掌握视觉概念和文本概念的关联。

除此之外，目前的成果只建立在较小规模的基础之上（13B），如果研究更大的多模态模型，我们在使用数据、参数设置、训练策略等方面可能都需要进一步探索。

评估基准也还可以更全面，目前MME和MMBench的测试范围都有限。

以及从上面的粗粒度感知识别任务榜单来看，现有所有多模态大模型对于根据图片准确识别物体位置的能力（对实现机器人感知意义重大）都比较欠缺：

最高的模型得分才33.33，离满分100还有很大的差距。

这个缺陷从下图也可以看出：

毫无疑问的是，人工智能的未来一定是多模态的。

以上这些问题说明，我们才刚刚开始探索它真正的潜力。

然而，我们相信，在一次又一次的榜单排名更迭之中，属于多模态大模型的“ChatGPT时刻”终将会到来。

论文地址：https://github.com/will-singularity/Skywork-MM/blob/main/skywork_mm.pdf
榜单地址：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation