图遇见大型语言模型:进展与未来方向的研究 原创
摘要:在现实世界的应用中,如引文网络、社交网络和生物数据等领域,图(graph)在表示和分析复杂关系方面起着至关重要的作用。最近,大型语言模型(Large Language Models, LLMs)在众多领域取得了显著成功,并且也被应用于与图相关的任务中,以超越传统的基于图神经网络(Graph Neural Networks, GNNs)的方法,并实现了最先进的性能。本综述首先对现有整合LLMs与图的各类方法进行了全面回顾与分析。首先,我们提出了一种新的分类法,根据LLMs在图相关任务中所扮演的角色(即增强器、预测器和对齐组件)将现有方法组织为三个类别。随后,我们沿着该分类法的三个类别系统性地调研了具有代表性的方法。最后,我们讨论了当前研究存在的局限性,并指出了未来研究的有前景方向。相关论文已进行总结,并将在以下网址持续更新:https://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。
1、 引言
图或图论,在当今世界的众多领域中扮演着基础性角色,特别是在科技、科学和物流领域[引用文献:Ji等人,2021年]。图数据展现了节点之间的结构特性,从而揭示了图内各组成部分之间的关系。许多真实世界的数据集,比如引文网络[引用文献:Sen等人,2008年]、社交网络[引用文献:Hamilton等人,2017年]以及分子结构数据[引用文献:Wu等人,2018年],本质上都可以用图的形式来表示。
为了处理与图相关的各种任务,图神经网络(Graph Neural Networks, GNNs)[引用文献:Kipf和Welling,2016;Velickovic等人,2018年]已经成为处理和分析图数据的最热门选择之一。GNNs的主要目标是通过节点间的递归消息传递和聚合机制,为不同类型的下游任务获取节点、边或整个图级别的具有表达力的表示形式。这些机制允许GNNs能够捕获和传播节点特征信息,从而实现对图结构数据的有效学习和推断。
近年来,诸如Transformer[ Vaswani等人,2017年]、BERT[ Kenton和Toutanova,2019年]、GPT[ Brown等人,2020年]及其变体等大型语言模型(LLMs)取得了重大进展。这些LLMs能够在稍作适应后轻松应用于多种下游任务,在诸如情感分析、机器翻译和文本分类等各种自然语言处理任务上展现出卓越性能[Zhao等人,2023d]。尽管它们的核心关注点一直是文本序列,但越来越多的研究兴趣在于增强LLMs的多模态能力,使其能够处理包括图[Chai等人,2023年]、图像[Zhang等人,2023b年]和视频[Zhang等人,2023a年]在内的多样化数据类型。
LLMs在图相关任务中的应用日益显著。借助LLMs,人们与图形交互的方式发生了显著转变,特别是在包含带有文本属性节点的图形上。如图1所示,图与LLMs的集成在众多图领域的各种下游任务中都展现出了成功案例。将LLMs与传统的GNNs结合使用可以互惠互利并增强图学习效果。虽然GNNs擅长捕捉结构信息,但其主要依赖于语义受限的嵌入作为节点特征,这限制了它们表达节点全部复杂性的能力。而引入LLMs可以使GNNs得到更强的节点特征,有效捕获结构和上下文两方面的信息。另一方面,LLMs在编码文本方面表现出色,但在捕捉图形数据中存在的结构信息时往往较弱。将GNNs与LLMs相结合,既可以利用LLMs强大的文本理解能力,又能发挥GNNs捕获结构关系的优势,从而实现更全面、强大的图学习。例如,TAPE[He等人,2023年]利用由LLMs生成的与节点(如论文)相关的语义知识来改进GNNs中初始节点嵌入的质量。此外,InstructGLM[叶等人,2023年]用LLMs替换了GNNs中的预测器,通过展平图形和设计指令提示等技术,利用自然语言的强大表征能力。MoleculeSTM[刘等人,2022年]将GNNs和LLMs对齐到同一向量空间中,将文本知识(即关于分子的信息)引入图中,从而提升推理能力。
图1:在众多不同的图领域中,图与大型语言模型(LLMs)的整合在多种下游任务中均展现出成功的应用。
显然,从不同角度来看,LLMs对图相关任务产生了重大影响。为了获得更好的系统化概述,参照Chen等人[2023a年]的研究,我们在图2中构建了第一级分类体系,按照LLMs在整个模型流程中所扮演的角色(即增强器、预测器和对齐组件)进行分类。我们进一步细化了这个分类体系,并对初始类别引入了更多粒度。
动机:尽管LLMs越来越多地应用于图相关任务,但这一快速发展的领域仍缺乏系统的综述。Zhang等人[2023d年]开展了一项前瞻性的调查,发表了一篇视角论文,探讨了图形与LLMs融合面临的挑战和机遇。Liu等人[2023b年]提供了另一项相关调查,总结了现有的图基模型,并概述了预训练和适应策略。然而,两者在综合覆盖范围和专门针对LLMs如何增强图的分类体系方面均存在不足。相比之下,我们专注于图和文本模态共存的场景,并提出了一个更为细致的分类体系,系统地回顾和总结了当前LLMs在图相关任务上的技术现状。
贡献:本工作的贡献可以从以下三个方面概括。1)结构化的分类体系:通过一个结构化的分类体系,展示了该领域的广泛概览,并将现有工作分为四个类别(见图2)。2)全面的回顾:基于提出的分类体系,系统地勾勒出了LLMs在图相关任务方面的当前研究进展。3)未来方向的探讨:我们讨论了现有工作中存在的局限性,并指出了可能的未来研究方向。
2、前言
在本节中,我们将首先介绍与本次调查密切相关的两个关键领域的基本概念,即图神经网络(GNNs)和大型语言模型(LLMs)。接下来,我们将简要介绍新提出的分类体系。
2.1 图神经网络
定义:大多数现存的GNN遵循消息传递范式,其中包括消息聚合和特征更新过程,例如GCN[Kipf和Welling,2016年]和GAT[Velickovic等人,2018年]。它们通过迭代地聚合邻域信息并对它们进行非线性函数更新来生成节点表示。前向传播过程可定义为:
其中,hi(l) 是第 l 层节点 i 的特征向量,Ni 是节点 i 的邻居节点集合。函数 M 表示聚合邻居信息的消息传递函数,U 表示输入中心节点特征和邻居节点特征的更新函数。通过堆叠多层,GNNs能够从更高阶的邻居那里聚合信息。
(注释:这个公式描述的是图神经网络(GNN)中的一个典型的消息传递(message passing)和节点更新(node updating)过程。这个过程是GNN的核心机制,用于在图中的节点之间传播和聚合信息。下面是对这个公式的详细解释:
1. h(il):
- 这是第l层中节点i的特征向量。在GNN的每一层,每个节点都会有一个特征向量,它包含了节点的信息以及从邻居节点聚合过来的信息。
2. hi(l-1):
- 这是第l-1层中节点i的特征向量。在GNN中,节点的特征向量会随着层数的增加而更新,新的特征向量是基于前一层的特征向量和邻居节点的信息计算得到的。
3. Ni:
- 这是节点i的邻居节点集合。在图中,每个节点都有一些直接相连的节点,这些节点被称为邻居节点。邻居节点的信息对于更新当前节点的特征向量至关重要。
4. M:
- 这是消息传递函数,用于聚合邻居节点的信息。这个函数定义了如何将邻居节点的特征向量合并到当前节点的特征向量中。常见的聚合函数包括求和(sum)、取平均(mean)、最大值(max)等。
5. U:
- 这是更新函数,它使用中心节点的特征和邻居节点的特征作为输入来更新节点的特征向量。更新函数通常还会结合一些激活函数(如ReLU)来增加模型的非线性。
6. h(jl-1) | vj ∈ Ni:
- 这表示对于节点i的所有邻居节点vj,取它们在第l-1层的特征向量h(jl-1)。这是消息传递的一部分,其中每个邻居节点的特征向量都会根据某种规则被聚合。
7. stacking multiple layers:
- 通过堆叠多层GNN,可以聚合来自高阶邻居(不仅是直接邻居,还包括邻居的邻居等)的信息。每一层都会从前一层的特征向量和邻居节点的信息中学习新的特征表示。
总的来说,这个公式展示了GNN如何通过消息传递和节点更新机制来学习图中节点的高阶表示。通过这种方式,GNN能够捕捉图中的结构信息和节点间的复杂关系,从而在各种图相关任务中取得良好的性能。)
图预训练和提示:尽管GNN已在图机器学习中取得一定成果,但它们通常需要昂贵的标注,并且难以泛化至未见过的数据。为了解决这些问题,图预训练旨在提取通用知识,使得图模型能更容易地处理不同任务,而无需大量标注成本。当前主流的图预训练方法可以分为对比学习和生成式方法两大类。例如,GraphCL[You等人,2020年]和GCA[Zhu等人,2021年]遵循对比学习框架,最大化两个增强视图之间的相似性。Sun等人[2023b年]将对比思想扩展到了超图领域。而GraphMAE[Hou等人,2022年]、S2GAE[Tan等人,2023a年]和WGDN[Cheng等人,2023年]则采用了掩蔽图的某个成分并尝试重构原始数据的方法。典型的“预训练与微调”学习方案基于预训练任务与下游任务在某些内在任务空间上共享共同性的假设。而在自然语言处理领域,研究人员逐渐关注一种新的范式——“预训练、提示及微调”,其目的是通过重新构造输入数据以适应预设任务。这一想法也自然地被应用到了图学习领域。GPPT[Sun等人,2022年]首先通过掩蔽边预测进行图模型预训练,然后将独立节点转换为token对,并将下游分类任务重新表述为边预测任务。此外,All in One[Sun等人,2023a年]提出了一个多任务提示框架,统一了图提示和语言提示的格式。
2.2 大型语言模型
定义:虽然目前对于大型语言模型(LLMs)尚无明确的定义[Shayegani等人,2023年],但在本调查中我们给出一个针对所提及LLMs的具体定义。关于LLMs的两项有影响力的调查[Zhao等人,2023d;Yang等人,2023年]从模型规模和训练方法的角度区分了LLMs和预训练语言模型(PLMs)。具体来说,LLMs是指那些经过大规模数据预训练的巨型语言模型(即十亿级别参数量),而PLMs则是指早期预训练的、具有适度参数规模(即百万级别)的模型,这些模型能够在特定任务数据上轻松进一步微调,以实现对下游任务更好的表现。鉴于GNNs参数量相对较小,结合GNNs和LLMs时往往不需要具有大型参数的LLMs。因此,我们遵循Liu等人[2023b]的思路,在本调查中将LLMs的定义扩展到包括先前调查中定义的LLMs和PLMs两类模型。
进化历程:LLMs可以根据非自回归和自回归语言建模的方式划分为两大类别。非自回归LLMs通常专注于自然语言理解,采用“掩码语言建模”作为预训练任务,而自回归LLMs更侧重于自然语言生成,经常利用“下一个令牌预测”目标作为其基础任务。像BERT[Kenton和Toutanova,2019年]、SciBERT[Beltagy等人,2019年]和RoBERTa[Liu等人,2019年]等经典的仅编码器模型属于非自回归LLMs类别。最近,自回归LLMs持续发展,例如基于编码器-解码器结构构建的Flan-T5[Chung等人,2022年]和ChatGLM[Zeng等人,2022年],以及基于仅解码器架构的GPT-3[Brown等人,2020年]、PaLM[Chowdhery等人,2022年]、Galactica[Taylor等人,2022年]和LLaMA[Touvron等人,2023年]。值得注意的是,LLMs在架构和训练方法上的进步催生了新兴能力[Wei等人,2022a],即通过诸如上下文学习[Radford等人,2021年;Dong等人,2022年]和链式思维[Wei等人,2022b]等技术,在小样本或零样本场景下处理复杂任务的能力。
2.3 提出的分类体系
我们提出一个分类体系(如图2所示),该体系将涉及图形和文本两种模态的代表性技术组织成三大主要类别:(1) LLM作为增强器,其中LLMs被用来提升GNNs的分类性能;(2) LLM作为预测器,其中LLMs利用输入的图结构信息进行预测;(3) GNN与LLM的对齐,通过对齐技术,LLMs语义上增强GNNs的功能。我们注意到,在某些模型中,由于LLMs参与程度较低,很难将其归入这三大主要类别中。因此,我们将它们单独归类为“其他”类别,并在图2中提供了它们的具体作用。例如,LLM-GNN [Chen等人,2023b]主动选择节点供ChatGPT注释,从而通过将LLM作为一个标注器来增强GNN的训练。GPT4GNAS [Wang等人,2023a]在图神经网络架构搜索任务中视LLM为一个经验丰富的控制器,它利用GPT-4 [OpenAI, 2023]探索搜索空间并生成新的GNN架构。此外,ENG [Yu等人,2023]使LLM成为一个样本生成器,用于生成带有标签的额外训练样本,为GNN提供充分的监督信号。
接下来的章节中,我们将按照提出的分类体系中的三大主要类别,分别对将LLMs融入图相关任务的方法进行全面综述。
图2:借助大型语言模型(LLMs)解决图任务的模型分类体系及其代表性例子
(注释:使用大型语言模型(LLMs)解决图任务的模型分类体系,并且提供了一些代表性的例子。这个分类体系将模型分为几个主要类别,每个类别都有其特定的角色和应用场景。
1. 基于解释的模型(Explanation-based):
- 这一类模型使用LLMs来生成解释或理由,以支持图任务的决策过程。例如,TAPE和LLMRec可能生成为什么某个节点对分类或预测特别重要的理由。
2. LLM作为增强器(LLM as Enhancer):
- 在这一类中,LLMs被用来增强图神经网络(GNNs)的性能。GIANT和SimTeG等模型可能会结合LLMs的文本理解能力和GNNs的图结构处理能力来提高整体性能。
3.基于嵌入的模型(Embedding-based):
- 这些模型使用LLMs来生成或改进节点或图的嵌入表示。WalkLM和OFA等模型可能会利用LLMs来学习更丰富的节点特征表示,这些表示可以用于各种下游任务。
4. 冻结(Frozen):
- 这一类涉及到使用预训练的LLMs,但不对它们的权重进行进一步的训练或微调。这些模型可能直接使用LLMs的输出作为特征或辅助信息。
5. 扁平化调整(Flatten-based Tuning):
- 这些方法可能涉及将LLMs的输出进行扁平化处理,然后对这些特征进行调整或微调,以适应特定的图任务。
6. LLM作为预测器(LLM as Predictor):
- 在这一类中,LLMs被直接用作预测器,而不依赖于GNNs。GIT-Mol和GraphLLM等模型可能会直接使用LLMs来预测节点属性或图的特性。
7. 基于GNN的模型(GNN-based):
- 这些模型结合了GNNs和LLMs,以利用两者的优势。GraphGPT和DGTL等模型可能会使用GNNs来处理图结构数据,同时使用LLMs来处理文本信息。
8. 对称的(Symmetrical):
- 这一类可能指的是同时使用LLMs和GNNs的模型,两者在模型中具有相似的角色或重要性。
9. GNN-LLM对齐(GNN-LLM Alignment):
- 这些模型专注于对齐GNNs和LLMs的输出,以便两者可以更好地协同工作。GraphFormers和GRAD等模型可能会探索如何整合GNNs的空间信息和LLMs的语言信息。
10. LLM作为注释器(LLM as Annotator):
- 这一类模型使用LLMs来为图数据提供注释或标签,可能用于半监督或无监督学习场景。
11. LLM作为控制器(LLM as Controller):
- 在这一类中,LLMs可能用来指导或控制GNNs的行为,例如决定哪些部分的图数据更重要或应该被重点关注。
12. LLM作为样本生成器(LLM as Sample Generator):
- 这些模型使用LLMs来生成图任务的样本数据,可能用于数据增强或模拟场景。)
3、LLM作为增强器
GNNs已成为分析图结构数据的强大工具。然而,主流基准数据集(如Cora[杨等人,2016年]和Ogbn-Arxiv[胡等人,2020年])采用浅层嵌入方法(如词袋、跳字模型[Mikolov等人,2013年]或TF-IDF[Salton和Buckley,1988年])来编码TAG中的文本信息,这不可避免地限制了GNNs在TAG上的性能。LLM作为增强器的方法对应于借助强大的LLMs提高节点嵌入的质量。由此产生的嵌入会被附加到图结构中,供任何GNNs使用,或者直接输入下游分类器以完成各种任务。我们将这些方法自然地分为两类:基于解释的增强和基于嵌入的增强,取决于它们是否利用LLMs生成额外的文本信息。
3.1 基于解释的增强
为了丰富文本属性,基于解释的增强方法专注于利用LLMs强大的零样本能力捕获高层次信息。如图3(a)所示,通常它们会促使LLMs生成语义丰富的附加信息,如解释、知识实体和伪标签。典型流程如下:
其中ti为原始文本属性,p是设计好的文本提示,ei为LLMs生成的附加文本输出,xi∈RD和X∈RN×D分别表示维度为D的增强后的节点i的初始节点嵌入和嵌入矩阵,同时利用邻接矩阵A∈RN×N通过GNNs获取节点表示H∈RN×d,其中d是表示的维度。例如,TAPE[何等人,2023年]是基于解释增强方法的先驱工作,它促使LLMs生成解释和伪标签以增强文本属性。之后,相对小型的语言模型会在原始文本数据和解释上进行微调,以编码文本语义信息作为初始节点嵌入。陈等人[2023a年]探究了LLMs在图学习中的潜在能力。他们首先比较了可观察嵌入的LLMs与浅层嵌入方法,然后提出KEA来丰富文本属性。KEA促使LLMs生成一系列知识实体及其文本描述,并通过微调的预训练语言模型和深度句子嵌入模型进行编码。LLM4Mol[钱等人,2023年]试图利用LLMs协助分子性质预测。具体来说,它利用LLMs生成原始SMILES的语义丰富的解释,然后微调一个小规模的语言模型来进行下游任务。LLMRec[魏等人,2023年]旨在利用LLMs解决图推荐系统中的数据稀疏性和数据质量问题。它通过LLMs强化用户-项目交互边,并生成用户的/项目的侧信息,最后使用轻量级的GNN[何等人,2020年]编码增强后的推荐网络。
图3:LLM作为增强器方法的示意图:
a) 基于解释的增强,该方法利用LLMs生成文本属性的解释以增强文本嵌入;
b) 嵌入式增强,该方法直接通过LLMs获取文本嵌入作为初始节点嵌入。
(注释:这两种方法都旨在改善图任务中文本属性的处理。
1. 基于解释的增强(a) Explanation-based enhancement):
- 在这种方法中,LLMs被用来生成文本属性的解释。这些解释是对文本内容的额外描述,可以帮助模型更好地理解文本的含义和上下文。
- 生成的解释可以与原始的文本嵌入(由传统的语言模型(LM)生成)结合,从而增强节点的表示。这种增强的表示可以更好地捕捉文本属性中的复杂性和深度。
- 这种增强的文本嵌入随后可以用于图神经网络(GNNs),以提供更丰富的节点特征,帮助GNNs在图任务中做出更准确的预测。
2. 基于嵌入的增强(b) Embedding-based enhancement):
- 在这种方法中,LLMs直接用来生成文本嵌入,这些嵌入作为图任务中节点的初始表示。
- 与基于解释的方法不同,这里LLMs生成的嵌入不需要与任何其他文本嵌入结合,而是直接作为节点的特征输入到GNNs中。
- 这种方法利用了LLMs强大的语义理解能力,直接将文本数据转换为嵌入空间中的向量表示,这些向量能够捕捉文本的复杂语义信息。
图片中的图示还展示了一些可选操作,如调整(Tuned)或冻结(Frozen)LLMs的权重。调整意味着对LLMs进行进一步的训练或微调,以适应特定的图任务。冻结则意味着使用LLMs的预训练权重,不对其进行任何修改。
这两种方法都利用了LLMs在处理文本数据方面的优势,通过增强文本属性的表示来提升图学习任务的性能。通过这种方式,可以将LLMs的语言理解能力与GNNs的结构学习能力结合起来,以处理更复杂的图任务。)
3.2 嵌入式增强
参见图3(b),基于嵌入式的增强方法直接利用LLMs输出文本嵌入作为GNN训练的初始节点嵌入:
增强:xi = fLLM(ti)
图学习:H = fGNN(X, A)
此类方法要求使用具有嵌入可见性或开源的LLMs,因为它需要直接访问文本嵌入并结合结构信息对LLMs进行微调。当前许多先进LLMs(例如GPT4[OpenAI, 2023年]和PaLM[Chowdhery等人,2022年])是闭源的,并仅提供在线服务。严格的限制使得研究人员无法访问其参数和输出的嵌入。这类方法大多采用级联形式,并利用结构信息辅助语言模型在预训练或微调阶段捕捉信息,以便最大程度地应用于大规模应用。典型的例子是GALM[Xie等人,2023年],它在一个给定的大规模图谱语料库上预训练PLMs和GNN聚合器,以捕获对大量应用最有价值的信息,然后针对特定下游应用进一步微调框架以提升性能。
有几项研究致力于通过在LLMs的微调阶段融入结构信息来生成节点嵌入。代表性的是GIANT[Chien等人,2021年],它通过一种新型的自我监督学习框架微调语言模型,该框架采用XR-Transformers解决链接预测上的极端多标签分类问题。SimTeG[段等人,2023年]和TouchUp-G[朱等人,2023年]遵循相似的方式,两者都通过类似链接预测的方法微调PLMs,帮助它们感知结构信息。两者之间的微妙差异在于,TouchUp-G在链接预测时使用负采样,而SimTeG则采用参数高效的微调方式加速微调过程。G-Prompt[黄等人,2023b年]在PLMs末端引入了一个图适配器,以帮助提取具有图意识的节点特征。一旦训练完成,任务特定的提示被整合进来,以产生针对各种下游任务的可解释节点表征。WalkLM[Tan等人,2023b年]是一种无监督的通用图表示学习方法,第一步是在图上生成带属性的随机游走并通过自动化文本化程序组成大致有意义的文本序列;第二步则是利用文本序列微调LLM并从LLM中提取表征。METERN[金等人,2023b年]引入关系先验令牌来捕获关系特异性信号,并使用一个语言编码器跨关系建模共享知识。LEADING[薛等人,2023年]有效地微调LLMs并将LLM中的风险知识转移到下游GNN模型中,从而降低计算成本和内存开销。
最近的一项工作OFA[刘等人,2023a年]尝试提出一个通用图学习框架,该框架可以利用单一图模型执行适应性下游预测任务。它使用人类可读的文本描述所有节点和边,并通过LLMs将不同领域的它们编码到同一空间中。随后,通过在输入图中插入任务特定的提示子结构,框架能够适应性地执行不同的任务。
3.3 讨论
LLM作为增强器的方法在TAG上展现出卓越的性能,能够有效捕获文本和结构信息。此外,它们还表现出强大的灵活性,因为GNNs和LLMs是即插即用的,允许它们利用最新技术来解决遇到的问题。这类方法(特别是基于解释的增强方法)的另一个优点是它们开辟了使用闭源LLMs辅助图相关任务的道路。然而,尽管一些论文声称其具有良好的可扩展性,实际上,当处理大规模数据集时,LLM作为增强器的方法确实涉及显著的开销。以基于解释的方法为例,对于包含N个节点的图,它们需要向LLMs的API查询N次,这的确是一项巨大的成本。
4、 LLM作为预测器
这个类别背后的核心理念是利用LLMs在统一的生成范式下,对广泛的与图相关的任务(如分类和推理等)进行预测。然而,将LLMs应用于图模态时,面临独特挑战,主要原因在于图数据通常缺乏直接转化为顺序文本的简单方式,因为不同的图以不同的方式定义结构和特征。在本节中,我们将模型大致分为基于展平和平面GNN预测两类,依据是否利用GNNs为LLMs提取结构特征。
(注释:这个类别的核心思想是使用大型语言模型(LLMs)来预测和处理各种与图相关的任务,比如图的分类和逻辑推理等。但是,当我们想用LLMs来处理图数据时,会遇到一些特别的挑战。这是因为图的结构和特征通常是很复杂的,而且不像文本那样可以很容易地转换成一连串的文字。所以,在这部分内容中,我们会看到两种主要的方法来解决这个问题。第一种是“基于展平”的方法,它可能意味着把图的结构和特征转换成一种可以被LLMs处理的形式。第二种是“平面GNN预测”,这种方法使用图神经网络(GNNs)来帮助LLMs理解图的结构特征。这两种方法都是为了让LLMs更好地处理和预测图数据。)
4.1 基于展平的预测
目前大多数利用LLMs作为预测器的尝试采用了将图转化为文本描述的策略,这有助于LLMs通过文本序列直接处理图数据。如图4(a)所示,基于展平的预测通常包括两个步骤:(1) 使用展平函数Flat(·)将图结构转化为节点或令牌的序列Gseq;(2) 然后应用解析函数Parse(·)从LLMs生成的输出中检索预测标签,如下所示:
图结构展平:Gseq = Flat(V, E, T ,J )
预测:Y˜ = Parse(fLLM(Gseq, p))
其中,V、E、T 和J 分别代表节点集合、边集合、节点文本属性集合和边文本属性集合。p 表示当前图任务的指令提示,而Y˜ 是预测得到的标签。
(注释:在许多尝试中,人们通常把图数据转换成一连串的文字描述,这样大型语言模型(LLMs)就可以直接处理这些图数据了。这个过程大致分为两步,就像图4(a)展示的那样:
1. 图结构展平:首先,我们使用一个叫做“展平函数”的东西,它把复杂的图结构(包括节点、边、节点上的文本信息和边上的文本信息)转换成一序列的节点或令牌,我们把这串东西叫做Gseq。
2. 预测:然后,我们用一个叫做“解析函数”的东西,从LLMs根据Gseq和一些提示(这些提示告诉我们LLMs我们现在要做什么任务)生成的输出中提取出预测的标签。
用数学符号来表示就是:
- 我们先得到一个序列Gseq,它是由节点V、边E、节点的文本属性集合T和边的文本属性集合J通过展平函数Flat(·)得到的。
- 接着,我们用LLMs的函数fLLM,输入是Gseq和任务提示p,最后得到一个预测的输出Y˜。
这里的V、E、T和J分别代表图中的节点、边、节点的文本属性和边的文本属性。p是我们给LLMs的指令提示,告诉它我们现在要完成什么任务。Y˜是我们想要预测的结果,也就是标签。)
图4展示了LLM作为预测器的方法示意图:
a) 展平策略为基础的预测方法,通过不同的展平策略将图形结构与LLM相结合;
b) 基于GNN的预测方法,利用GNN捕获结构信息供LLM使用。
(注释:两种使用大型语言模型(LLMs)作为预测器的方法
1. 基于展平的预测(a) Flatten-based prediction):
- 在这种方法中,图结构通过某种展平策略被转换成一个序列,这样LLMs就可以处理它了。展平函数(Flat(·))将图的节点和边转换成一个线性序列,可能还包括节点和边的文本属性。
- 这个序列(Gseq)随后被输入到LLM中,LLM根据这个序列生成预测结果。这个过程可能涉及到一些额外的步骤,比如解析LLM的输出来提取最终的预测标签(Y˜)。
2. 基于GNN的预测(b) GNN-based prediction):
- 在这种方法中,图神经网络(GNNs)首先被用来捕捉图的结构信息。GNNs通过消息传递和节点更新机制来学习节点的嵌入表示,这些嵌入表示包含了图的结构特征。
- 学习到的嵌入表示(可能是1跳或2跳邻居的信息)随后被用作LLM的输入。这样,LLM可以利用GNNs提供的结构信息来进行预测。
一些具体的步骤和组件:
- 图结构和文本属性(Graph Structure & Attributes):这是原始图数据的两个组成部分,结构特征描述了节点和边如何连接,而文本属性可能包含了节点和边的描述或标签。
- 展平(Flattening):这是将图数据转换成序列的过程,以便LLMs可以处理。
- GNN序列(GNN Sequence):这是通过GNN处理后得到的节点序列,它包含了结构信息。
- LLM:这是大型语言模型,它接收展平后的序列或GNN的嵌入表示,并生成预测结果。
这两种方法都试图将图数据转换为LLMs可以处理的格式,但它们在如何准备输入数据和如何利用LLMs方面有所不同。基于展平的方法直接处理图的结构,而基于GNN的方法则先使用GNNs来提取结构信息,然后将这些信息传递给LLMs。)
模型的解析策略通常标准化。例如,考虑到LLM(大型语言模型)的输出往往包含其推理和逻辑过程,特别是在链式思考(CoT)场景中,一些研究工作[如Fatemi等人,2023;Zhao等人,2023c;Chen等人,2023a;Guo等人,2023;Liu和Wu,2023;Wang等人,2023b]利用正则表达式从输出中提取预测标签。某些模型[如Chen等人,2023a;Fatemi等人,2023;Wang等人,2023b;Chai等人,2023;Huang等人,2023a]进一步将LLM的解码温度设置为0,以减少LLM预测的变异性并获得更可靠的结果。另一个方向是将图任务形式化为多选问答问题[Robinson和Wingate,2022],其中LLM被指示在提供的选项中选择正确答案。例如,一些研究[如Huang等人,2023a;Hu等人,2023;Shi等人,2023]通过在零样本环境下给出选项并在提示中附加指令来约束LLM的输出格式,比如“对于你的答案,不要给出任何推理或逻辑”。此外,还有一些方法,如GIMLET[Zhao等人,2023a]和InstructGLM[叶等人,2023],对LLM进行微调以直接输出预测标签,使它们无需额外的解析步骤就能提供准确的预测。
(注释:在这些模型中,研究人员通常会采用一些标准的方法来从大型语言模型(LLMs)的输出中提取有用的信息。因为LLMs在解决问题时会展示它们的思考过程,就像人在解决问题时会一步步地推理一样。有些研究是这样的:
- 他们会用类似“查找和替换”这样的技术(正则表达式)来找出LLMs输出中的关键信息,也就是预测的答案。
- 有些模型会让LLMs的输出更加确定,不那么随机。他们通过调整一个叫做“解码温度”的设置来实现这一点,把它设为0,这样LLMs就只给出最可能的答案,而不是很多可能性。
- 另一种方法是把图的问题变成一个多项选择题,然后让LLMs从几个选项中选择正确的答案。这就像是在问LLM:“在这些选项中,哪一个是对的?”
- 有些研究还会特别告诉LLMs不需要给出解释,只需要直接给出答案。这样,输出的答案就很简单,不需要再进行额外的处理。
- 最后,也有一些方法会特别训练LLMs,让它们直接输出预测的标签,这样就不用再去分析LLMs说了什么,直接就能得到预测结果。
所以,这些方法都是在尝试让LLMs更好地理解和解决图相关的问题,并且尽可能直接和清晰地给出答案。)
相比于解析策略,展平策略展现出显著的变化性。接下来,我们将依据LLM参数是否更新这一条件,组织整理展平方法。
LLM冻结状态下
GPT4Graph[Guo等人,2023]利用诸如GML[Himsolt, 1997]和GraphML[Brandes等人,2013]等图形描述语言来表示图形结构。这些语言提供了标准化的语法和语义,用于表示图形内的节点和边。受语言学句法树[Chiswell和Hodges, 2007]启发,GraphText[Zhao等人,2023c]利用图-句法树将图形结构转换为一系列节点序列,然后将其输入到LLM中进行无需训练的图形推理。此外,ReLM[Shi等人,2023]使用简化的分子输入线性表达系统(SMILES)字符串,为分子图形结构提供一维线性化表示。图形数据也可以通过邻接矩阵和邻接表等方式表示。若干方法[Wang等人,2023b; Fatemi等人,2023; Liu和Wu, 2023; Zhang等人,2023c]直接采用数值化组织的节点列表和边列表,以纯文本方式描绘图形数据。GraphTMI[Das等人,2023]还进一步探索了不同模态,如motif和图像,以便将图形数据与LLM相结合。
(注释:在大型语言模型(LLM)的冻结状态下,意味着我们不训练或调整LLM的内部参数,而是直接使用它来处理图数据。这里有几种不同的方法来表示图,让LLM能够理解并进行推理:
1. 图形描述语言:
- 有些研究,比如GPT4Graph,使用特殊的图形描述语言(比如GML和GraphML)来描述图的结构。这些语言有自己的规则和语义,就像我们用单词和句子来交流一样,它们用来描述节点和边的关系。
2. 图-句法树转换:
- GraphText这种方法受到语言学中句法树的启发,它把图的结构转换成一系列的节点序列,就像句子中的单词顺序一样,然后这些序列可以直接输入到LLM中,让LLM进行图推理,而不需要额外的训练。
3. 一维线性化表示:
- ReLM这种方法用一种简化的分子表示系统(SMILES)来表示分子图。这种表示就像一个线性的字符串,可以很容易地被LLM读取和理解。
4. 邻接矩阵和邻接表:
- 有些方法通过邻接矩阵或邻接表来表示图,这些都是数学上常用的表示图的方式。邻接矩阵是一个表格,显示了图中每对节点之间是否有边连接;邻接表则是列出了每个节点的邻居节点。
5. 数值化的节点列表和边列表:
- 还有一些方法直接用数值列表来表示图中的节点和边,就像列出了一个清单一样。这种纯文本的描述方式可以让LLM直接读取图的信息。
6. 多模态表示:
- GraphTMI这种方法探索了不同的模态,比如图的motif(图案)和图像,来结合图数据和LLM。这意味着它不仅仅使用文本,还可能使用图像等其他类型的数据来帮助LLM更好地理解图。
这些方法都是在尝试用不同的方式把图的信息转换成LLM能够处理的格式,让LLM能够读取和推理图数据,而不需要对LLM进行任何训练或调整。)
另一方面,使用自然叙述表达图形结构的方法也正在稳步发展。陈等人[2023a]和胡等人[2023]都将引用网络的结构信息整合到提示中,这是通过明确地使用单词"引用(cite)"表示边关系,并使用论文索引或标题表示节点实现的。而黄等人[2023a]并未使用“引用(cite)”来表示边,而是通过列举当前节点随机选择的k跳邻居来描述关系。此外,GPT4Graph[Guo等人,2023]和陈等人[2023a]模仿了GNN的聚合行为,总结当前邻居的属性作为额外输入,旨在提供更多结构信息。值得注意的是,Fatemi等人[2023]探讨了多种节点和边的表示方法,总共检验了11种策略。例如,他们使用索引或字母表示节点,并应用箭头或括号来表示边的关系。
(注释:在描述图结构时,研究人员也在尝试用更自然的语言来表达。这里有一些具体的方法:
1.整合引用网络信息:
- 陈等人和胡等人在他们的研究中,把引用网络的结构信息放到了提示中。他们用“引用”这个词来明确表示节点之间的连接关系,就像论文之间互相引用一样。节点则用论文的索引或标题来表示。
2. 描述节点的邻居:
- 黄等人则用了一种不同的方法。他们不是用“引用”来表示连接,而是列出一个节点的几跳邻居,这样也能表达节点之间的关系。
3. 模仿GNN的聚合行为:
- GPT4Graph和陈等人的研究中,他们模仿了图神经网络(GNN)的聚合行为。他们总结了一个节点的邻居们的属性,然后把这些信息作为额外的输入,帮助模型更好地理解图的结构。
4. 探索不同的表示策略:
- Fatemi等人的研究中,他们探索了很多不同的表示方法。他们用索引或字母来表示节点,用箭头或括号来表示节点之间的边关系,总共测试了11种不同的策略。
所以,这些方法都是在尝试用更自然和直观的方式来描述图结构,让大型语言模型(LLM)能够更好地理解和处理图数据。)
LLM调优方面
GIMLET[Zhao等人,2023a]采用了基于距离的位置嵌入技术,以增强LLM对图形结构的认知能力。在对图形进行位置编码时,GIMLET定义了两个节点之间的相对位置为它们在图形中的最短距离,这一做法在图形变换器领域的文献中得到了广泛应用[如Ying等人,2021的研究]。类似于黄等人[2023a]的工作,InstructGLM[叶等人,2023]设计了一系列基于最大跳层级别的可扩展提示。这些提示允许中心论文节点通过运用自然语言表述的连接关系,与其任何指定跳层级别的邻居建立直接关联,从而能够与任意期望的邻近层级建立联系。
(注释:在调整大型语言模型(LLM)以更好地处理图网络方面,有几种方法:
1. 基于距离的位置嵌入(GIMLET):
- GIMLET这种方法用了一个技巧,就是给图中的每个节点一个特别的位置编码,这个编码是基于节点之间最短的距离。就像是给每个节点在图里的位置分配一个坐标,这样模型就能更容易理解哪些节点是“近”的,哪些是“远”的。这个方法在图处理的研究中已经被证明是很有用的。想象一下,当你想教会一个模型理解一张复杂的网状结构时,就像教一个人理解一个社交网络或化学分子结构那样,位置信息至关重要。GIMLET就是教模型关注节点间的相对位置,它把每对节点之间的距离看作是在这个图形中的“最短路径”,这样一来,模型就能更准确地把握不同节点间的关系远近。这种思想在处理图形数据的图形变换器技术中非常流行,比如Ying等人在2021年的研究就曾探讨过类似的方法。
2. 可扩展提示(InstructGLM):
- InstructGLM设计了一系列提示,这些提示可以让模型理解图中的节点不仅与它的直接邻居有关系,而且可以与更远的节点建立联系。就像是告诉模型,一个节点可以通过几个“跳”(或者说是中间节点)与图中的其他节点连接起来。这样,模型就能理解图中更复杂的结构和关系了。这个方法有点像制作一份详细的导航指南,只不过它是为大型语言模型定制的。他们设计了一系列灵活的提示模板,这些模板能够逐级展开,就像是层层递进的地图索引一样。这样,模型就能轻松跟随指引,从一个中心节点出发,无论要探索几步之遥的邻居节点还是更远层次的关系节点,都能通过自然语言表达的连接线索直达目的地。这样做的好处是,模型不仅能理解单个节点的文本信息,还能结合图形结构的上下文关系,实现更加精准的信息处理和推理。
这些方法都是在尝试让LLM更好地理解图的结构,通过给节点加上位置信息或者通过设计特别的提示来描述节点之间的关系。这样,当LLM需要处理图数据时,它就能更准确地理解图中的信息,并做出更好的预测或决策。)
4.2 基于GNN的预测
GNN(图神经网络)已在通过递归的信息交换和节点间聚合,理解图形结构方面展现出卓越的能力。如图4(b)所示,与基于展平预测(即将图形数据转化为文本描述作为LLM的输入)相比,基于GNN的预测充分利用GNN的优势,将图形数据中存在的内在结构特性和依赖关系与LLM相结合,使LLM具有结构感知能力,如下所示:
图形学习:H = fGNN(X, A)
预测:Y~ = Parse(fLLM(H, p))
其中X代表节点嵌入矩阵,A为邻接矩阵,H表示与图形相关的结构感知嵌入。基于GNN的预测同样依赖于一个解析器从LLM中提取输出。然而,将GNN表示集成到LLM中通常需要调整,在训练过程中提供理想的输出,这使得LLM的预测格式更容易标准化。
(注释:图神经网络(GNN)就像是一个专门研究图形的专家,它很擅长通过在图里的节点之间传递和分享信息来理解图形的结构。就像你在朋友圈里听说了一些八卦,然后通过这些信息来了解你的朋友们都是谁,他们之间是什么关系。
在图4(b)中展示的基于GNN的预测方法,就是先用GNN来理解图形,然后把得到的信息告诉LLM。这就像是先把图里的信息整理好,然后再告诉LLM,这样LLM就可以更容易理解这些信息了。
这里的X是每个节点的特征,可以想象成每个节点的一些个人信息,比如年龄、兴趣等。A是邻接矩阵,它告诉我们哪些节点是朋友(即哪些节点是相连的)。H是GNN理解后得到的新信息,它包含了节点之间关系的新理解。
然后,我们用一个解析器从LLM那里得到我们想要的答案。这就像是你问LLM一个问题,然后LLM根据它从GNN那里得到的信息来回答你。
通常,为了让LLM更好地理解GNN给它的信息,我们可能需要对LLM进行一些调整,让它知道怎么用这些信息来给出我们想要的答案。这样,LLM的预测就能更符合我们的期望,也更容易理解。)
各种策略已被提出以融合由GNN学习的结构模式以及LLM捕获的上下文信息。例如,GIT-Mol[Liu等人,2023c]和MolCA[Liu等人,2023d]都实现了BLIP-2的QFormer[Li等人,2023a]作为跨模态投影器,将图编码器的输出映射到LLM的输入文本空间。为了有效进行图-文本交互,采用了多种目标函数和不同的注意力掩蔽策略。GraphLLM[Chai等人,2023]在前缀调优阶段通过对图形表示施加线性投影,得到增强型前缀,使LLM能够与图形变换器协同作用,纳入对图形推理至关重要的结构信息。此外,GraphGPT[Tang等人,2023]和InstructMol[Cao等人,2023]都采用简单的线性层作为轻量级对齐投影器,将编码后的图形表示映射到一些图形令牌,而LLM擅长将这些令牌与多样化的文本信息对齐。DGTL[Qin等人,2023]则直接将分解的图形嵌入注入LLM每一层,突出显示图形拓扑和语义的不同方面。
(注释:在图数据处理中,研究人员提出了各种方法来结合图神经网络(GNN)学习到的结构信息和大型语言模型(LLM)捕获的上下文信息。这里有几个例子:
1. 跨模态投影器:
- 像GIT-Mol和MolCA这样的研究,使用了一种叫做BLIP-2的QFormer作为跨模态投影器。这个投影器的作用就像是翻译员,它把GNN输出的图信息转换成LLM能理解的文本信息。
2. 图-文本交互:
- 为了帮助LLM和图信息有效地交流,研究人员使用了不同的目标函数和注意力掩蔽策略。这些技术帮助LLM更好地理解图的结构和文本内容。
3. 增强型前缀:
- GraphLLM研究中,在调整模型的过程中,使用了线性投影来增强图形表示,这样LLM就可以更好地和图变换器一起工作,理解图形的结构信息。
4. 轻量级对齐投影器:
- GraphGPT和InstructMol研究中,使用了简单的线性层来把图形表示转换成图形令牌。这些令牌是LLM能够处理的特殊标记,它们帮助LLM把图形信息和文本信息对齐。
5. 注入图形嵌入:
- DGTL研究中,直接把图的嵌入信息放到LLM的每一层中。这样做可以让LLM在处理文本的同时,也关注到图的拓扑结构和语义信息。
总的来说,这些方法都是在尝试让LLM更好地理解和处理图数据,通过把图的结构信息转换成LLM能够处理的格式,让两者能够有效地结合,从而提高处理图任务的能力。)
4.3 讨论
直接将LLM用作预测器在处理图形的文本属性方面显示出优势,尤其是在零样本性能上与传统GNN相比表现卓越。最终目标是开发和完善将图形结构信息编码成LLM能够有效地理解和操作的格式的方法。基于展平的预测在有效性方面可能具有优势,而基于GNN的预测往往效率更高。在基于展平的预测中,LLM的输入长度限制导致每个节点只能访问其几跳内的邻居,这使得捕捉长程依赖性变得困难。此外,由于不涉及GNN,无法解决诸如异质性等GNN固有问题。另一方面,对于基于GNN的预测,由于深度变换器早期层梯度消失问题[Zhao等人,2023a; Qin等人,2023],训练附加的GNN模块并将其插入LLM中进行联合训练颇具挑战性。
5、GNN与LLM对齐
GNN与LLM的嵌入空间对齐是一种有效结合图形与文本模态的方法。GNN-LLM对齐确保在特定阶段保留每个编码器的独特功能,并协调它们的嵌入空间。本节概述了对齐GNN与LLM的技术,根据是否对GNN和LLM同等重视或优先考虑某一模态,这些技术可以分为对称和非对称两类。
5.1 对称对齐
对称对齐是指在对齐过程中对图形和文本模态进行平等处理。这类方法确保两种模态的编码器在各自的应用中都能达到相当的表现水平。典型的对称对齐架构如图5(a)所示,采用双塔样式,分别使用独立的编码器对图形和文本进行编码。在对齐过程中,两种模态仅一次交互。像SAFER [Chandra等人,2020]这样的方法使用简单拼接来处理这两种独立的嵌入,但这种方法在实现结构信息和文本信息无缝融合方面存在不足,导致两种模态松散耦合。因此,大多数双塔样式模型采用对比学习技术促进对齐,类似于CLIP [Radford等人,2021]用于视觉和语言模态的对齐。一般来说,这些方法包括两个步骤:第一步是特征提取,获取图形表示和文本表示;第二步是使用修改过的InfoNCE损失函数的对比学习过程,其方程式如下:
其中g代表特定图形的表示,t表示对应图形文本的表示。s(·, ·)表示评分函数,赋予正对高分值,负对低分值。τ是一个温度参数,|G|表示训练数据集中图形的数量。两个编码器的参数都是通过反向传播基于对比损失进行更新。
图5展示了GNN-LLM对齐方法的示意图:
a) 对比、对称对齐,采用拼接或对比学习方法应用于图形嵌入和文本嵌入;
b) 迭代对齐,属于对称对齐类别,旨在实现两种模态嵌入间的迭代交互;
c) 图形嵌套对齐,一种对称对齐方式,它将GNN与Transformer交织在一起;
d) 知识蒸馏对齐,属于非对称对齐,使用GNN作为教师模型来训练语言模型使其具备对图形结构的理解能力。
Text2Mol [Edwards等人,2021]提出了跨模态注意力机制,实现在早期融合图形和文本嵌入。通过transformer解码器实现,Text2Mol使用LLM的输出作为源序列,GNN的输出作为目标序列。这种设置允许注意力机制学习多模态关联规则,然后利用解码器的输出进行对比学习,与GNN处理后的输出配对。
MoMu [Su等人,2022]、MoleculeSTM [Liu等人,2022]、ConGraT [Brannon等人,2023]和RLMRec [Ren等人,2023]共享类似的框架,采用配对的图形嵌入和文本嵌入实现对比学习,但在细节上仍存在差异。MoMu和MoleculeSTM均从PubChem [Wang等人,2009]收集分子,前者从已发表的科学论文中检索相关文本,后者利用分子的相应描述。ConGraT将此架构扩展至分子领域之外,已在社交、知识和引用网络上验证了这种图形-文本配对对比学习方法的有效性。RLMRec建议通过对比建模将LLM的语义空间与推荐系统中的协作关系信号(表明用户-项目交互)的表示空间对齐。
类似G2P2 [Wen和Fang,2023]和GRENADE [Li等人,2023b]的研究进一步推进了对比学习的使用。具体来说,G2P2增强了对比学习的粒度,并在微调阶段引入了提示。在预训练阶段,它在三个层次上应用对比学习:节点-文本、文本-文本摘要和节点-节点摘要,从而强化了文本和图形表示之间的对齐。提示在下游任务中得以运用,表现出在少量样本和零样本文本分类及节点分类任务上的强大性能。另一方面,GRENADE通过整合以图为中心的对比学习和双层次的以图为中心的知识对齐(包括节点级别和邻域级别对齐)进行优化。
不同于以往方法,迭代对齐方法如图5(b)所示,对两种模态平等对待,但在训练过程中通过允许模态之间进行迭代交互而区别开来。例如,GLEM [Zhao等人,2022]采用期望最大化(EM)框架,其中一个编码器迭代为另一个编码器生成伪标签,使它们能够对齐它们的表示空间。
5.2 非对称对齐
当对称对齐旨在给予两种模态同等重视时,非对称对齐则专注于允许一种模态辅助或增强另一种模态。当前研究中,主导方法是利用GNN处理结构信息的能力来强化LLM。这些研究可分为两大类:嵌套式图变换器和具有图意识的蒸馏方法。
嵌套式图变换器,如图5(c)所示的GraphFormer [杨等人,2021]就是一个例子,它通过将GNN集成到每个变换器层来展示非对称对齐。在LLM的每一层中,节点嵌入来自第一个令牌级嵌入,该嵌入对应于[CLS]标记。这一过程涉及收集所有相关节点的嵌入并应用于图变换器,然后将输出与输入嵌入拼接,并传递给LLM的下一层。Patton [金等人,2023a]扩展了GraphFormer,提出两种预训练策略——网络上下文化的掩码语言建模和掩码节点预测,特别适用于富含文本的图。在分类、检索、重排序和链接预测等各种下游任务中,它的表现非常出色。
另外,GRAD [Mavromatis等人,2023]采用具有图意识的蒸馏方法来对齐两种模态,如图5(d)所示。它利用GNN作为教师模型为LLM生成软标签,促进了聚合信息的传递。此外,由于LLM共享参数,在LLM参数更新后,GNN可以从改进的文本编码中受益。通过迭代更新,开发出一个具备图意识的LLM,由于去除了GNN,因此在推理阶段提高了可扩展性。与GRAD相似,THLM [邹等人,2023]采用异构GNN来增强LLM的多阶拓扑学习能力。它通过两种不同的策略同时预训练LLM和辅助GNN。第一种策略侧重于预测节点是否为目标节点的上下文图的一部分。第二种策略利用Masked Language Modeling任务,有助于LLM发展强大的语言理解能力。预训练过程结束后,丢弃辅助GNN,并对LLM进行微调以适应下游任务。
5.3 讨论
为了对齐GNN和LLM,对称对齐以平等的方式对待每种模态,目的是同时增强GNN和LLM,从而产生能有效处理涉及两种模态任务的编码器,利用各自编码优势提高模态特异性表征。此外,非对称方法通过将图编码器插入变换器中或直接使用GNN作为教师来增强LLM。然而,对齐技术在面对数据稀缺性问题时面临挑战。特别是只有少数图数据集(例如分子数据集)包含原生的图-文本对,这限制了这些方法的适用范围。
表格1:按发布时间顺序排列的文献汇总,列出了利用LLM协助图相关任务的各类模型。其中“微调”指是否需要对LLM的参数进行微调,♡符号表示该模型采用了参数高效微调(PEFT)策略,比如LoRA和前缀调优。"提示"表明在LLM中使用了文本格式的提示,无论是手动还是自动设置的。
任务缩写说明:Node代表节点级别的任务;Link代表边级别的任务;Graph代表图级别的任务;Reasoning代表图推理任务;Retrieval代表图文检索任务;Captioning代表图描述生成任务。
6、来发展方向
表1总结了按照提出的分类法,利用LLMs辅助处理图相关任务的模型。基于上述回顾与分析,我们认为该领域仍有很大的提升空间。本节我们将讨论当前利用LLM理解图数据能力所面临的局限性,并列出一些后续研究值得进一步探索的方向。
1. 处理非TAG问题:利用LLMs辅助学习带有文本属性的图已经表现出卓越性能。然而,在现实世界场景中普遍存在大量缺乏丰富文本信息的图结构数据。例如,在交通网络(如PeMS03 [宋等人,2020年])中,每个节点代表一个运行中的传感器,在超像素图(如PascalVOC-SP[德维迪等人,2022年])中,每个节点代表一个超像素块。这些数据集并没有在每个节点上附带文本属性,且难以用人类可理解的语言来描述每个节点的语义含义。虽然OFA[刘等人,2023a]提出用人类可理解的文本描述所有节点和边,并通过LLMs将其嵌入同一空间,但这种方法可能并不适用于所有领域(如超像素图),在某些特定领域和数据集上的性能可能不尽理想。因此,探索如何利用LLMs强大的泛化能力帮助构建适用于无丰富文本信息的图的基础模型是一项有价值的研究方向。
2. 应对数据泄露问题:LLMs中的数据泄露问题已成为讨论焦点[Aiyappa等人,2023年]。由于LLMs经过大规模文本语料库的预训练,它们很可能至少接触并记忆了部分常见基准数据集的测试数据,特别是对于引用网络而言。这使得依赖早期基准数据集的研究可靠性受到质疑。此外,陈等人[2023a]证明了特定的提示可能会增强LLMs对应记忆的“激活”,从而影响评估结果。黄等人[2023a]和何等人[2023]尝试通过收集新的引用数据集避免数据泄露问题,确保测试论文采样自ChatGPT截止日期之后的时间段,但这仍然局限于引用领域,且其数据集中图结构的影响不显著。因此,重新审视用于准确评估LLMs在图相关任务上性能的方法至关重要,同时建立公平、系统且全面的基准也是必需的。
3. 提高迁移能力:迁移能力一直是图领域的一大挑战[Jiang等人,2022年]。由于各图的独特特性和结构,从一个数据集到另一个数据集,或者从一个领域到另一个领域的知识迁移并非易事。不同图在大小、连通性、节点类型、边类型以及整体拓扑方面差异显著,直接在它们之间转移知识较为困难。尽管LLMs由于在海量语料库上进行了广泛预训练,显示出了在语言任务上优秀的零样本/少样本能力,但在利用LLMs中嵌入的知识提高图相关任务的迁移能力方面的探索相对有限。OFA[刘等人,2023a]试图通过将所有节点和边描述为人类可读文本,并用单一LLM将来自不同领域的文本嵌入同一向量空间实现跨领域的统一方法。提升迁移能力这一主题仍值得深入研究。
4. 提高可解释性:可解释性,又称为可解释度,指的是以人类可理解的方式来解释或展示模型行为的能力[Zhao等人,2023b年]。LLMs在处理图相关任务时相比GNNs显示出更好的可解释性,主要归因于LLMs能为图推理生成用户友好的解释,包括第3节讨论的生成额外解释作为增强器,以及第4节提及的提供推理过程作为预测器。已有研究表明,在提示范式内探索解释技术,如上下文学习[Radford等人,2021年]和思维链[Wei等人,2022b年],通过向LLM输入一系列演示和提示以引导其生成特定方向的输出并解释其推理过程。进一步的研究应该致力于提升可解释性。
5. 提高效率:尽管LLMs在图学习上展现出有效性,但它们在时间和空间效率上可能不如专门设计的图学习模型如GNNs,尤其是在依赖序列图描述进行预测的情况下(如第4节所述)。例如,通过API(如ChatGPT和GPT-4)访问LLMs时,计费模型对于处理大规模图会产生高昂成本。此外,开源LLMs本地部署的训练和推理均需消耗大量时间及硬件资源。现有研究[Duan等人,2023年;Liu等人,2023c年;Ye等人,2023年;Chai等人,2023年;Liu等人,2023d年;Tang等人,2023年]已尝试采用诸如LoRA[胡等人,2021年]和前缀调优[Li和Liang,2021年]等参数高效微调策略使LLMs适应更加高效。我们相信,更多的高效方法可以解锁在有限计算资源下应用LLMs解决图相关任务的潜力。
6. 表达能力的分析与改进:尽管LLMs最近在图相关任务上取得了一些成就,但其理论上的表达力仍未得到充分探索。标准的消息传递神经网络被认为具有与1-Weisfeiler-Lehman(WL)测试相当的表现力,这意味着在1跳聚合下它们无法区分非同构图[Xu等人,2018年]。因此,有两个基本问题浮现出来:LLMs理解和处理图结构的有效程度如何?其表达能力是否超越了GNNs或WL测试?此外,置换不变性是典型GNN的一个有趣特性,在几何图学习中尤为重要[Han等人,2022年]。探索如何赋予LLMs这一特性也是一个有趣的研究方向。
7.将LLMs作为智能体:目前结合LLMs和图的应用中,LLMs常常扮演增强器、预测器和对齐组件的角色。但在更复杂的场景中,这些应用可能并未充分发挥LLMs的潜能。最新研究已经开始探索LLMs作为智能体的新角色,如生成智能体[Park等人,2023年]和领域特定智能体[Bran等人,2023年]。在一个由LLM驱动的智能体系统中,LLMs充当智能体的大脑,辅以规划、记忆和工具使用等关键组件[Weng,2023年]。在复杂图相关场景,如推荐系统和知识发现中,将LLMs视为智能体首先将任务分解为多个子任务,然后针对每个子任务识别最合适的工具(如GNNs)或许能够获得更好的性能表现。此外,将LLMs作为智能体应用于图相关任务有可能构建出强大且高度泛化的解决方案。
结论
近年来,LLMs在图相关任务中的应用已经成为了一个突出的研究领域。在本次综述中,我们的目标是深入介绍现有的将LLMs应用于图领域的各种策略。首先,我们引入了一种新颖的分类法,依据LLMs在其中扮演的不同角色,即增强器、预测器和对齐组件,将涉及图形和文本两种模态的技术分为三类。其次,我们按照这个分类体系系统地回顾了代表性研究成果。最后,我们讨论了一些局限性,并指出了几个未来的研究方向。通过这次全面的回顾,我们旨在揭示在LLMs辅助下的图学习领域的进展与挑战,从而激发该领域进一步的优化和发展。
Li Y, Li Z, Wang P, et al. A survey of graph meets large language model: Progress and future directions[J]. arXiv preprint arXiv:2311.12399, 2023.
本文转载自公众号AIRoobt ,作者:AIRoobt
原文链接:https://mp.weixin.qq.com/s/yzqFSVm3j-UsT3niJi8LLw