最近,中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授作为共同通讯作者在国际综合期刊《自然·通讯》(英文名:Nature Communications,简称Nat Commun)上发表题为「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究论文,文章第一作者为博士生费楠益。该工作尝试利用多模态基础模型迈向通用人工智能,并将对各种 AI + 领域(如神经科学和医疗健康)产生广泛的影响。本文是这篇论文的解读。
- 论文链接:https://www.nature.com/articles/s41467-022-30761-2
- 代码链接:https://github.com/neilfei/brivl-nmi
人工智能的基本目标是模仿人类的核心认知活动,如感知、记忆、推理等。虽然许多人工智能算法或模型在各个研究领域都取得了巨大的成功,但是受限于大量标注数据的获取或是没有足够的计算资源支撑在大规模数据上的训练,大多数的人工智能研究还是只局限于单个认知能力的习得。
为了克服这些局限并向通用人工智能迈出一步,我们以人类大脑处理多模态信息为灵感(如图 1a),开发了一个多模态(视觉语言)基础模型,也即预训练模型。此外,为了让模型获得强大的泛化能力,我们提出训练数据中的图片与文本应遵循弱语义相关假设(如图 1b),而不是图片区域与单词的精细匹配(强语义相关),因为强语义相关假设将导致模型丢失人们在为图片配文时暗含的复杂情感和思考。
图 1:基于弱语义相关假设的 BriVL 模型。a. 我们的 BriVL 模型和人脑在处理视觉语言信息上的对比。b. 建模弱语义相关数据和建模强语义相关数据的对比。
通过在爬取自互联网的大规模图文对数据上进行训练,我们得到的多模态基础模型展现出强大的泛化能力和想象能力。我们相信,我们的工作向通用人工智能迈出了重要的一步(虽然可能很小),并将对各种 AI + 领域(如神经科学和医疗健康)产生广泛的影响。
方法
我们开发了一个大规模多模态基础模型在海量的多模态数据上进行自监督训练,并把它取名为 BriVL(Bridging-Vision-and-Language)。
首先,我们使用了一个从互联网构建的大规模多源图文数据集,称为弱语义相关数据集(WSCD)。WSCD 收集了来自网络上多个来源的中文图像文本对,包括新闻、百科和社交媒体。我们只过滤掉了 WSCD 中的色情和敏感数据,没有对原始数据进行任何形式的编辑和修改,以保持其自然的数据分布。总的来说,WSCD 有大约 6.5 亿个图文对,覆盖了许多主题,如体育、日常生活和电影。
其次,对于我们的网络架构,由于图像和文本之间不一定存在细粒度的区域单词匹配,我们丢掉了耗时的目标检测器,采用简单的双塔架构,因此能够通过两个独立的编码器对图像和文本输入进行编码(如图 2)。双塔结构在推理过程中具有明显的效率优势,因为候选集的特征可以在查询前计算和索引,满足现实世界应用的实时要求。第三,随着大规模分布式训练技术和自监督学习的发展,用海量的未标注的多模态数据训练模型成为可能。
具体来说,为了对图文对的弱相关性进行建模,并学习一个统一的语义空间,我们基于单模态对比学习方法 MoCo 设计了一个跨模态对比学习算法。如图 2 所示,我们的 BriVL 模型使用了 momentum 机制,用来在不同的训练批次中动态维护负样本队列。通过这种方式,我们会有一个比较大的负样本数量(对对比学习至关重要),同时使用一个相对较小的 batch 大小以减少 GPU 的内存占用(即 GPU 资源节约)。
图 2:用于大规模多模态预训练的 BriVL 模型示意图。
主要结果
神经网络可视化
当我们听到文字或描述性的句子时,脑海中就会出现一些场景。那对于我们的 BriVL,它在如此大量的弱相关图文对上进行预训练以后,我们就很好奇当给出文本时,它会想象到什么。
具体来说,我们首先输入一段文本,通过 BriVL 的文本编码器获得其文本嵌入。然后我们随机初始化一个噪声图像,并通过图像编码器得到其特征嵌入。由于输入的图像是随机初始化的,它的特征与输入文本的特征必定不一致。因此,我们定义了匹配两个特征嵌入的目标,并通过反向传播来更新输入图像。最终得到的图像便能清楚地展示 BriVL 对输入文本的想象。这里我们不使用任何额外的模块或数据,预训练好的 BriVL 也在整个可视化过程中被冻结。
我们首先介绍 BriVL 对一些高级语义概念的想象能力(如图 3)。可以看到,尽管这些概念非常抽象,但可视化还是能够显示出它们的具体形态(例如,“自然”:像草一样的植物;“时间”:钟表;“科学”:一张戴着眼镜的脸和一个锥形瓶;“梦境”:云,一座通往门的桥,以及梦境般的氛围)。这种将抽象概念概括为一系列具体物体的能力表明了我们的多模态预训练只使用弱语义相关数据的有效性。
图 3:BriVL 模型对抽象概念的想象。
在图 4 中,我们展示了 BriVL 对句子的想象力。BriVL 对 “乌云背后有阳光” 的想象不仅从字面上体现了乌云背后的阳光,而且似乎还显示出海上的危险情况(左边有船一样的物体和波浪),表达了这句话的隐含意思。在 “生如夏花” 的可视化中,我们可以看到一个花丛。接下来的两个场景更复杂的文本输入都来自中国古诗,其语法也与训练集中的绝大多数文本完全不同。看起来 BriVL 也能很好地理解它们:对于“竹外桃花三两枝”,我们可以看到有竹子和粉红色的花;对于“白日依山尽,黄河入海流”,我们可以看到山上的树木遮掩着夕阳,前面河流上有一艘小船。总的来说,我们发现即使在复杂句子的提示下,BriVL 依然具有很强的想象能力。
图 4:BriVL 模型对中文句子的想象。
在图 5 中,几个类似的文本被用于 BriVL 的神经网络可视化。对于“有森林的山脉”,图像中有更多的绿色区域;对于“有石头的山脉”,图像中有更多的岩石;对于“有雪的山脉”,中间树木周围的地面都是白色或蓝色;对于“有瀑布的山脉”,可以看到蓝色的水落下来,甚至还有一些水蒸汽。这些可视化结果证明了 BriVL 能对山脉的修饰词进行准确的理解和想象。
图 5:BriVL 模型对 “有… 的山脉” 的想象。
文生成图
神经网络可视化非常直接,但有时会很难解释。因此我们开发了另一种可视化 / 可解释性方法,使 BriVL 的想象内容可以更好地被我们人类理解。具体来说,我们利用 VQGAN 在 BriVL 的指导下来生成图像,因为在 ImageNet 数据集上预训练的 VQGAN 非常善于生成逼真的图像。我们首先随机得到一个 token 序列,并从预训练好的 VQGAN 中获得一个生成图像。接着,我们将生成的图像输入到 BriVL 的图像编码器中,同时将一段文本输入到文本编码器中。最后,我们定义图像和文本嵌入之间需要匹配的目标,并通过反向传播来更新初始的 token 序列。与神经网络可视化一样,VQGAN 和 BriVL 在生成过程中都被冻结。为了比较,我们还展示了 OpenAI 的 CLIP 模型代替 BriVL 来生成的图像。
我们首先选择了四个文本输入,分别在图 6 和图 7 展示了 CLIP 和我们 BriVL 的文生成图结果。CLIP 和 BriVL 都能很好地理解文本,然而我们也观察到两个主要的差异。第一,卡通风格的元素会在 CLIP 生成的图像中出现,而 BriVL 生成的图像则更加真实和自然。第二,CLIP 倾向于简单地把元素放在一起,而 BriVL 生成的图像在全局上更加统一。第一个差异可能是由于 CLIP 和 BriVL 使用的训练数据不同。我们训练数据中的图像是从互联网上抓取的(大部分是真实的照片),而在 CLIP 的训练数据中可能有一定数量的卡通图像。第二个区别可能是由于 CLIP 使用的图文对具有很强的语义相关性(通过单词过滤),而我们使用的则是弱相关数据。这意味着在多模态预训练期间,CLIP 更有可能学到具体物体和单词 / 词组之间的对应关系,而 BriVL 则试图将每张图像与给定的文本作为一个整体来理解。
图 6:CLIP(w/ ResNet-50x4)借助 VQGAN 实现文生成图的例子。
图 7:我们的 BriVL 借助 VQGAN 实现文生成图的例子。
我们还考虑了一个更具挑战性的任务,即根据多个连贯的句子来生成一系列的图像。如图 8 所示,虽然每张图片都是独立生成的,但我们可以看到,四张图片在视觉上是连贯的,风格也是一样的。这表明了 BriVL 模型的另一个优势:尽管图像中的环境和背景很难在相关文本中明确提及,但在我们的大规模多模态预训练中,它们并没有被忽略。
图 8:我们的 BriVL 借助 VQGAN 进行一系列连贯内容生成的例子。
在图 9 中,我们选择了一些人类很少见到的概念 / 场景(如 “熊熊燃烧的大海” 和“发光的森林”),甚至是那些在现实生活中不存在的概念 / 场景(如 “赛博朋克风格的城市” 和“云端的城堡”)。这证明了 BriVL 的优越性能不是来自于对预训练数据的过拟合,因为这里输入的概念 / 场景在现实生活中甚至不存在(当然极大可能就不在预训练数据集中)。此外,这些生成的例子再次验证了在弱语义相关数据上预训练 BriVL 的优势(因为细粒度的区域单词对齐会损害 BriVL 的想象能力)。
图 9:更多 BriVL 的文生成图结果,其中的概念 / 场景都是人类不常看到甚至是现实生活中不存在的。
此外,我们还将 BriVL 应用于遥感图像零样本分类、中文新闻零样本分类、视觉问答等多个下游任务,均取得一些有意思的结果,具体请见我们的论文原文。
结论与讨论
我们开发了一个名为 BriVL 的大规模多模态基础模型,该模型在 6.5 亿的弱语义相关图文上进行了训练。我们通过神经网络可视化和文生成图直观展示了对齐的图文嵌入空间。此外,在其他下游任务上的实验也显示了 BriVL 的跨领域学习 / 迁移能力以及多模态学习相对于单模态学习的优势。特别地,我们发现 BriVL 似乎获得了一定地想象和推理能力。我们相信这些优势主要来自于 BriVL 所遵循的弱语义相关假设。也就是说,通过挖掘弱相关图文对中复杂的人类情感和思想,我们的 BriVL 变得更加具有认知性。
我们相信,我们向通用人工智能迈出的这一步,不仅会对人工智能领域本身产生广泛的影响,也会对各个 AI + 领域产生影响。对于人工智能的研究,基于我们 GPU 资源节约型的多模态预训练框架,研究人员可以很容易地将 BriVL 扩展到更大的量级和更多的模态,以得到更通用的基础模型。在大规模多模态基础模型的帮助下,研究人员也更容易探索新的任务(尤其是那些没有足够人类标注的样本)。对于 AI + 领域,由于其强大的泛化能力,基础模型可以快速适应特定的工作环境。例如,在医疗保健领域,多模态基础模型可以充分利用病例的多模态数据来提高诊断的准确性;在神经科学领域,多模态基础模型甚至可能可以帮助找出多模态信息如何在人脑中融合的机制,因为人工神经网络比人类大脑中的真实神经系统更容易研究。
尽管如此,多模态基础模型仍然面临着一些风险和挑战。基础模型可能会学到对某些事情的偏见和成见,这些问题应该在模型训练前仔细处理,并在下游应用中进行监控和解决。此外,随着基础模型掌握越来越多的能力,也要小心它被心怀不轨的人滥用,避免对社会产生负面影响。此外,在基础模型地未来研究上,也存在一些挑战:如何开发更深入的模型可解释性工具,如何用更多的模态构建预训练数据集,以及如何用更有效的微调技术将基础模型应用于各个下游任务。
本篇论文作者为:费楠益、卢志武、高一钊、杨国兴、霍宇琦、温静远、卢浩宇、宋睿华、高欣、向滔、孙浩、文继荣;共同通讯作者为人大高瓴人工智能学院卢志武教授、孙浩长聘副教授、文继荣教授。论文发表于国际综合期刊《自然 · 通讯》(英文名:Nature Communications,简称 Nat Commun)。本篇论文由费楠益解读。