ICLR 2024 | UIUC等提出BioBridge：用知识图谱构建多模态生物医学基础模型

zhangyannni

发布于 2024-3-28 12:38

浏览

0收藏

01 引言

这是 UIUC Zifeng Wang 等发表在 ICLR'24 上的论文。

ICLR 2024 | UIUC等提出BioBridge：用知识图谱构建多模态生物医学基础模型-AI.x社区

论文题目：

BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs

论文链接：

https://arxiv.org/pdf/2310.03320.pdf

在生物医学研究领域，一直以来，基础模型（Foundation Models，简称FMs）大多局限于单一模态的数据处理，比如仅仅专注于蛋白质序列、小分子结构或者是临床数据分析。这种单模态的处理框架虽然在特定任务上表现出色，但在应对多样化的生物医学数据时，其潜能却受到了限制。

ICLR 2024 | UIUC等提出BioBridge：用知识图谱构建多模态生物医学基础模型-AI.x社区

▲ 几种构建多模态模型的方法：CLIP，ImageBind，BioBridge

02 CLIP

传统的多模态方法，比如大名鼎鼎的 CLIP 模型 [1]，大多建立在配对的多模态数据上。比如，如果我们要训练一个蛋白质-文本模型，就需要收集大量的蛋白质序列和其对应的文本描述，从而做对比学习。这一类工作有很多，比如在 x-rays 和临床笔记上做对比的 MedCLIP [2]，在文本和蛋白质上做的 ProteinDT [3]，在文本和分子上做的 MolT5 [4]，等等。

但是，假如我们有超过两个模态，比如有三个模态 A,B,C，在这种思路下，我们就需要三种配对数据，AB, AC, 和 BC，才能训练一个三塔的多模态模型。当存在更多模态的时候，这种对于数据的需要是排列组合式增长的。这就使这种配对数据的思路很难用于超过两个模态的情况。

03 ImageBind

ImageBind [5] 是 Meta AI 提出的一种用来构建多模态检索模型的一种方法。其本质是选择一个模态作为中间模态，比如图片，然后让其他模态的模型都向图片模态靠拢。在这情况下，假设我们有一个中间模态 A，还有另外两个模态 B,C，我们就需要收集 AB 和 AC 两种配对数据。在这种情况下，ImageBind 一共需要（模态数-1）个数的配对数据，而且需要更新（模态数-1）个模态的编码器来构建多模态系统。

04 BioBridge

本文提出用知识图谱（KG）来作为多模态数据源，从而将独立训练的单模态基础模型桥接（Bridge）成一个能够处理多种数据模态的系统（Multimodal FM）。

单模态的数据往往比多模态数据的数量要大的多。我们可以收集到超过 2.5 亿个蛋白质序列或者 15 亿个分子结构，但是只能收集到 44 万个蛋白质文本对。大模型的缩放原理告诉我们，基础模型需要“大”数据才能产生所谓的 emergent ability。所以我们更容易训练出很好的单模态模型，却不容易从零开始训练出一个多模态模性。

在这种思路下，我们希望能够在训练好的单模态基础模型的基础上，去把它们合并在一起去作为一个多模态的系统。这就产生了这篇文章里提到的 “bridge” 的概念。

KG 存在许多三元组，比如（蛋白质 A, associated with，疾病 B）。这样，我们希望能够用一个单模态的蛋白质模型去编码蛋白质 A，然后设计一个关系模型取编码 “associated with”，将蛋白质 A 的embedding 映射到疾病的 space 里。这样，我们可以匹配由蛋白质 A 生成的 embedding 和疾病 B 的 embedding，做到跨模态检索。

通过 BioBridge，不同类型的生物医学数据能够实现无缝交互和转换，而且这一切都不需要对原有的单模态模型做任何调整。