一、图迁移学习概要介绍
首先,来介绍一下图迁移学习相关的背景知识,以及一些典型的应用场景。
1、什么是图数据
图数据是一种非欧空间数据,通常由节点和节点之间的边构成。图数据广泛存在于真实世界的各个场景当中,例如引文网络、社交网络、交通网络、分子图、蛋白质网络、知识图谱等等。图结构如此普遍,对图结构的建模是非常重要的。
2、图表示学习
图表示学习是当前主流的图学习方法之一,例如 network、embedding、图神经网络(GNN)等图算法。它们为图上的节点学习低维向量表示,并把学到的节点表示用于一系列下游任务。图表示学习的下游任务通常根据图上的组成元素被分为 3 个level,分别是:
(1)节点级别任务,比如节点分类和节点性质预测。
(2)边级别任务,比如连接预测。
(3)图级别任务,比如图分类和图性质预测。
然而,目前的很多图表示学习算法都是建立在独立同分布图的理想情况下,也就是图数据的样本数据分布服从独立同分布,但这在实际应用场景当中通常是很难满足的,真实的样本之间往往存在着分布的迁移。在迁移学习领域大家常常称这些分布不同的节点属于不同的 domain。我们也可以认为在同一个 domain 下的样本,是服从 IID 假设的。而不同 domain 下的样本则不服从 IID 假设。对于 None-IID 的图,传统图表示学习算法的效果往往会明显下降。
这也促使我们去思考如何使算法对不同 domain 的数据是鲁棒的,或者能够提升图表示学习模型在新的 domain 上的泛化能力。
3、传统迁移学习
已有的研究也表明,深度学习方法对数据的 distribution shift 问题是十分敏感的。有关 distribution shift 的问题,大家可以参考图中的 paper,其中详细讨论了各种 distribution shift 问题以及一些可行的解决方案。迁移学习是当前解决 distribution shift 问题的一个主流做法,在 CV/NLP 领域也已经被广泛研究。
传统的迁移学习通常将数据分成 source domain 和 target domain,而根据在训练阶段可以使用的标签数量或者质量,我们进一步将迁移学习分成几个子问题,分别是零样本学习(Zero-shot learning)、少样本学习 (Few-shot learning)和弱样本学习(Weak-shot learning)。其中零样本学习是在训练阶段不使用任何 target domain 的标签;少样本学习是在模型训练阶段使用少量的标签;而 Weak-shot learning 强调的不是 target domain 下样本的标签数量的多少,而是强调 target domain 样本 标签的质量差、有噪声。不同于欧式数据,图上的分布迁移问题其实是更加复杂的,因为图上的构成元素本身也是更复杂的。
4、图中的分布偏移
首先来讲一下图上的分布式如何定义,以及图上的分布迁移。前面提到图表示学习的任务通常分为 3 个 level:节点级、边级别、图级别。这里按照由粗到细的顺序来介绍图数据上的数据分布。
首先是图级别的样本分布。对于一个图而言,如果图结构信息不同,那么几何结构会有完全不同的性质。比如这里给了一个例子,在训练集当中,图数据都是这种三角结构的,测试集里面的图结构是一些星形的图结构,这就造成了 source domain 和 target domain 在图结构上的分布差异。此外,对于图而言,其中的节点和边可能有额外的属性或者类别特征。即使是同样的图结构,如果图上的结点或者边的属性,亦或是类别的分布不同,同样也会导致图数据的 distribution shift 问题。
除了图级别的分布迁移,可以进一步细分图中的每一个节点,也可以作为一个样本,也会存在节点级别的分布迁移问题。
首先,图中的节点是可以有属性特征的,不同节点的属性特征可能是非独立同分布的。而图数据一个最大的特点就在于节点之间不是相互独立的,而是通过边相互连接在一起。因此,相比于图片这种样本之间彼此相互没有联系的情况,图中的节点就有了邻居的概念。因而除了节点自身的属性分布之外,还有邻居的属性分布。邻居的分布又可以进一步细分成邻居的特征分布,邻居节点的标签分布,以及局部节点特征。对于邻居的特征分布,有很多种衡量的方式,例如最简单的 GCN 用了均值聚合的策略。邻居特征的均值就是一种最简单的一阶的分布统计量。
除此之外,邻居的标签分布也是一个很重要的性质。有大量研究表明,graph 的平滑性跟 GNN 模型的表现是密切相关的。比如这里提到的 homophily 或 heterophily 的性质,其实就是描述邻居节点与当前节点标签相同的节点的占比,这是一种邻居标签分布的度量方式,而标签分布不同的节点在图中也是经常存在的。
最后还有节点的局部结构性质,比如以某一个节点为中心,采样一个局部的 Ego network 结构,对于节点表示的学习以及区分节点的不同 label 往往也是非常重要的。比如社交网络里面的 popular node,通常它们的度会非常大。相比之下,另外一种 unpopular node,它的 degree 就会比较小,甚至是接近 0 的。这样一种以节点为中心的局部结构的分布迁移,在图中也是常常发生的。
5、如何表示邻域特征分布(NFD)?
这里分享一个我们之前在学习节点邻居分布表征上的尝试。正如前面提到的,邻居节点的特征对应节点的邻居特征分布。如何表征一个邻居特征分布呢?比如 GCN 采用邻居的均值,其实就是邻居特征分布的一阶统计量。但是仅仅一阶统计量往往不足以表示一个节点的邻居的分布。比如最简单的高斯分布,它的自由度是 2,所以它最少需要均值和方差这两个统计量才能确定这样一个分布。再加上大多数的图本身是比较稀疏的,我们没有办法保证邻居的分布近似为高斯分布。
所以我们需要一种更复杂的特征函数来表示一个分布。我们的尝试是采用邻居节点特征的多阶矩来表示分布。有关邻居分布表征的内容,大家可以参考上图列出的 paper。此外,我们的另外两个工作当中也涉及了邻居分布的表征学习,大家感兴趣的话也可以去阅读一下。
6、图上现有的 OOD 泛化方法
已有一些相关工作研究了图上的 distribution shift 问题,也提出了一些图上的迁移学习方法。上图中列出了最具代表性并且研究热度比较高的两种图上的迁移学习方法。
一种是基于 invariant learning 不变性学习的方法。这种方法旨在学习 domain invariant 知识,从而可以在已知的 domain 上训练模型。保留 domain invariant 的信息。从而可以更好地泛化到未知的或者信息量更少的 domain 上面。
另外一种研究比较多的方法是 OOD detection 方法。这种方法通常不是区分 source domain 或者 target domain,而是区分 in distribution 和 out distribution 的样本。而且通常会假设数据集内大多数样本是 in distribution 的。通过检测出数据中的 out of distribution 的样本,并削弱它们的影响,从而使得模型在训练过程当中更加关注 in distribution 的样本,来达到增强模型鲁棒性的目的。相关的工作也列了一部分在这里,大家感兴趣也可以去阅读调研。
有关图迁移学习的背景知识就先介绍到这里,接下来分享我们基于真实世界数据发现的图迁移学习领域的一个新问题,相关论文已经被国际会议 ACM WebConference2023 接收。
二、VS-Graph:图迁移学习新场景
这一章节中将介绍图迁移学习中节点级任务的新场景,在这一新场景中,我们定义了一种全新的图结构:VS-Graph。
在真实的场景当中,训练数据通常是不完美的,往往会伴随 data-hungry 的问题。例如有些样本可能存在缺失特征,或者训练标签非常少。而且 data-hungry 问题也是非常普遍的。如果通过补充数据来缓解 data-hungry 问题是非常困难的。
其一,是因为有些数据根本观测不到。其二,就算可以获取到这些数据,仍然需要花费大量的时间、金钱去获取这些数据。所以我们采用了一种折中的方式,最大化地利用已有其它类型或其他来源的数据,并通过知识迁移的手段,把其它领域质量相对较好的数据中的知识,通过技术手段迁移到质量较差的数据当中,从而改善模型在这些质量差的样本上的效果。
基于这样一个背景,我们提出了 VS-Graph 这样一个全新的场景。VS-Graph 全称为 Vocal Silent Graph。顾名思义,VS-Graph 上有两类节点,一类节点我们称之为 silent node,也叫小 v 节点;对应的另一类就是 vocal node,也叫大 v 节点。类似于现实生活中,大 v 或者明星节点是数量比较少的,而小 v 通常占据了大多数。此外,大 v 节点通常是比较 popular 的,它们的信息量更全。而小 v 节点通常是 unpopular 的,信息量更少。例如我们在检索网站中去搜索一个明星,可以搜到很多结果,但如果搜索一个普通人可能就搜不到。对应到 VS-Graph 里面,大 v 节点的 feature 和 label 是非常充足的,而小 v 节点的 feature 可能存在缺失或者不可观测的情况,它们的 label 也是比较少的。
此外,大 v 节点和小 v 节点的属性特征之间往往存在显著的分布迁移。比如一个明星的日常活动跟一个普通人的日常活动的差别是非常大的。就像上图中子图(b)展示的一样,其中绿色节点就代表大 v 节点,它有完全可观测的属性特征和已知的节点 label。而灰色的小 v 节点,只有少量的节点 label 以及一部分不可观测的属性特征。
我们把同时包括大 v 节点和小 v 节点这样的图结构称之为 VS-Graph。我们的目标就是预测在 VS-Graph 上小 v 节点这样的标签,同时通过从大 v 节点向小 v 节点传递知识的方式,来提升模型在小 v 节点上的分类性能。
VS-Graph 在现实中是非常常见的,接下来以两个现实应用场景为例,来介绍 VS-Graph。
1、VS-Graph:“预测图上沉默的大多数”
第一个例子是政治选举的社交网络的场景。在 Twitter 社交网络中,存在两类用户,一类是像特朗普、拜登这样的政治家,另一类是一些普通用户。这两类用户日常都会在 Twitter 上去发言,而他们发表的文字可以作为各自的特征。但是通过其它方式还可以获取到政治家们更全面的个人信息,例如他们的个人主页或者在维基百科中搜索的结果。对于普通用户,这些是获取不到的,但是普通用户的数量远高于政治家。所以在这样一个场景下,我们希望预测普通用户的政治倾向,也就是他是民主党还是共和党。大部分普通用户的政治倾向是不明确的,因此我们只能获得其中少量的具有明确政治倾向的用户标签。所以可以基于 Twitter 的社交网络去构建一个 VS-Graph。大 v 节点就是政治家,小 v 节点就是普通用户。而节点之间的边则表示 Twitter 用户之间的 follow 关系。
除了社交网络的场景,还有金融场景下的 VS-Graph。比如公司的投资网络上面存在着上市公司和非上市公司这两类不同类型的公司,而上市公司的规模更大,非上市公司的规模较小,所以这两种公司的特征数据分布往往是存在显著的分布偏移的。此外,上市公司每年每季度都会公布他们的财务报表,我们可以通过财务报表来获取上市公司的财务信息。而非上市公司没有披露财务报表的义务,我们就无法获取到一部分信息。此外,上市公司受到新闻媒体的关注度也是比较高的,他们的风险事件和风险标签是比较透明的。但是对于非上市公司,他们的风险标签则不易获取。在金融场景下的公司风险评估任务当中,上市公司可以作为大 v 节点,而非上市公司则可以作为小 v 节点。他们之间的投资关系则可以作为 VS-Graph 的边,进而我们可以通过从上市公司向非上市公司迁移知识来提升模型在非上市公司风险评估任务上的表现。
在 VS-Graph 上,我们的最终目标是预测小 v 节点,所以给这一任务也取了一个比较有意思的名字,就是在图上去预测沉默的大多数。我们基于这两个场景,分别用从真实应用场景中的获取数据构造了 VS-Graph,并做了一系列的分析和实验。
2、基于真实世界 VS-Graph 的数据分析
在刚才提到的两个场景当中,小 v 节点属性不可观测以及标签稀少的问题是天然存在的,所以我们主要是证明大 v 节点和小 v 节点在共有的属性特征上,确实存在着明显的分布迁移问题。
上图中的图(a)展示了公司风险场景下 VS-Graph 的节点属性分布,这三幅箱型图对应三个属性,分别是公司的注册资本、真实资本以及核心的员工人数。x 轴区分了上市公司和非上市公司。红色和蓝色分别代表有风险和无风险,也就是对应正负利益标签。从图中可以看出来两个事情,一个是上市公司和非上市公司之间确实存在着非常显著的分布差异,另一个则是有风险公司和无风险公司在属性分布上也表现出一定的相关性。
第二幅图是 Twitter 社交网络和 company 公司网络上对大 v 节点和小 v 节点的共有特征做的一个 T-SNE 的可视化分析。图 (a) 和 图 (d) 展示了大 v 节点和小 v 节点的分布差异,橙色点和青色点分别对应大 v 节点和小 v 节点。图 (b) 和图 (e) 分别是区分大 v 节点中的正例和负例,红色和蓝色分别代表正例和负例。图 (c) 和 (f) 则是小 v 节点的正例和负例。
从这两幅图中能说明的一个问题就是,在 VS-Graph 的场景下,大 v 节点和小 v 节点的特征确实存在着非常显著的分布差异。在 Twitter 社交网络的场景下,主要是由于政治家和普通用户的发言内容及主题差异导致的。而在 company 金融数据网络上,主要是由于公司的规模大小差异,导致上市公司和非上市公司这两种类型的公司的数据分布存在一个数据分布的迁移问题。
三、知识可迁移图神经网络
接下来介绍我们基于 VS-Graph 提出的一种新型的知识可迁移图神经网络模型,最后我们也会分享我们的论文和代码链接。
1、在 VS-Graph 上的知识转移
首先简单总结一下 VS-Graph 的挑战以及我们的目标。VS-Graph 上的挑战可以总结为三点:
(1)小 v 节点属性缺失或者不可观测。
(2)小 v 节点的标签很稀少。
(3)大 v 节点和小 v 节点之间存在天然的分布迁移问题,但却通过边相连构成了整个图,所以它们之间并不是相互独立的。
我们希望基于 VS-Graph 实现从大 v 节点向小 v 节点的知识迁移,从而使得模型能够在小 v 节点的分类任务上的效果更好。针对上面提出的 3 个挑战,我们总结了 3 个需要解决的问题以及它们的解决方案。
首先,由于大 v 节点和小 v 节点之间存在显著的分布差异,应该考虑对数据分布的建模。这里我们通过领域自适应的方式,将大 v 节点和小 v 节点分别视为两个不同的 domain,去建模它们的分布差异。其次,由于小 v 节点的部分属性是不可观测的,而这部分属性对大 v 节点而言来又是可观测的,所以希望基于大 v 节点的完全的特征来补全小 v 节点缺失的特征。最后则是要完成最后的知识迁移。以图结构为媒介,可以将大 v 节点的知识以图神经网络中消息传递的形式迁移到小 v 节点,并且需要在消息传递的过程当中考虑每一条边的原节点和目标节点之间的领域差异。
2、WWW2023:知识可转移图神经网络
基于上述问题,我们设计了这样一个知识可迁移的图神经网络 KTGNN 模型。上图展示了 KTGNN 的整体结构。可以看到 KTGNN 的 pipeline 可以分为三个部分。在每一部分,都考虑了大 v 节点和小 v 节点之间的领域分布差异的建模。
第一步,考虑到小 v 节点相比大 v 节点存在部分不可观测的特征,我们首先完成小 v 节点缺失属性补全。
第二部分,进一步完成在 VS-Graph 上的消息传递,包括大 v 节点和大 v 节点之间、小 v 节点和小 v 节点之间的领域内消息传递,以及大 v 和小 v 节点之间的跨领域消息传递。在消息传递的过程当中,不同于之前迁移学习常用的不变性学习只保留了 domain invariant 的信息,我们的方法会保留不同领域节点的领域差异,而不是丢弃掉那些跟 domain 相关的信息,同时在保留不同领域节点的领域差异的情况下,去完成知识迁移。
第三部分,对来自不同领域的节点去训练参数可迁移的分类器模块。
接下来详细介绍这三个部分。
3、第一步:领域自适应特征补全(DAFC)
首先考虑到小 v 节点相比于大 v 节点的缺失了部分维度的属性特征。比如像非上市公司,观测不到其财务报表信息。所以要做的第一件事情就是通过特征完全的大 v 节点来补全图中的小 v 节点缺失部分的特征。对此,我们设计了一个迭代的补全式算法。
具体而言,对于 VS-Graph 上的每一个小 v 节点,都通过从它的大 v 邻居节点来向它迁移知识。在这个过程当中,考虑了两方面的因素。一个是大 v 邻居节点和小 v 节点之间存在一个数据分布的差异,所以需要先有一个领域差异矫正的过程,也就是消除原节点的领域分布差异,再把原节点的信息传递给目标节点。
领域差异矫正的计算过程在下面的红框当中,首先会计算一个平均领域差异 Δx,再用大 v 节点的 feature 减去 rescale 后的领域差异变量 Δx。从而得到矫正后的原节点特征,用于补全目标节点的特征。同时也考虑到一个小 v 节点可能有多个大 v 节点邻居,所以除了校正领域差异之外,还考虑了邻居的重要性因子。通过大 v 原节点和小 v 目标节点共有的属性,计算 attention 系数作为邻居重要性因子,最终用邻居重要性因子乘上矫正过后的大 v 原节点特征,再传递给小 v 目标节点,从而补全小 v 目标节点所缺失的那部分特征。但是也考虑到并不是所有的小 v 节点都会有大 v 邻居节点,所以还会在此基础上继续去迭代。通过已经补全的小 v 节点继续去补全剩余的还没有补全的小 v 节点。只不过在从第二轮迭代开始的补全过程当中,由于原节点和目标节点已经都是小 v 节点了,所以也不再需要考虑领域迁移的问题,只需要考虑邻居重要性因子这样一个因素就可以了。
为了保证补全后的小 v 目标节点仍然是属于小 v 节点的 domain,而不与大 v 节点的 domain 混淆,在这一步添加了领域分布差异的一致性保障损失,损失函数的计算过程在黄框当中,有关这一部分的详细解释,大家感兴趣也可以去参考我们的原文。
4、第二步:领域自适应消息传递(DAMP)
通过上面一步,在保留了大 v 节点和小 v 节点领域差异的情况下,已经补全了小 v 节点不可观测的那部分特征。接下来将会以图神经网络消息传递的形式,进一步将大 v 节点的丰富知识传递给小 v 节点,从而增强小 v 节点的表示学习。
上一步中只考虑了从大 v 节点向小 v 节点去做知识迁移。而在消息传递模块,消息传递方向可以分为 4 种,其中两种是领域内的消息传递,包括大 v 节点到大 v 节点的消息传递,以及小 v 节点向小 v 节点的消息传递。另外两种则是跨领域的消息传递,包括大 v 节点向小 v 节点的消息传递,以及小 v 节点向大 v 节点的消息传递。每次消息传递同样也包括两个因素,分别是领域差异的矫正和邻居重要性因子。用矫正后的原节点特征乘以邻居重要性因子之后,再将 message 传递给目标节点,从而去更新目标节点的向量表示。领域差异因子和邻居重要性因子的计算过程,也分别列在了红框和绿框当中。
5、第三步:领域可迁移分类器(DTC)
在第二步当中每次消息传递的时候,就会先通过这样一个领域差异校正完之后,再去传递给目标节点,这一过程依然保留了大 v 节点和小 v 节点的领域差异,又通过消息传递进一步将图拓扑的信息编码到了所学到的大 v 节点和小 v 节点的表示向量当中。
接下来最后一步,还需要训练一个下游任务的分类器。我们最终的目标是对标签稀少的小 v 节点去做节点分类。在这一步骤当中,将大 v 节点视为 source domain,而将小 v 节点视作 target domain。核心的 idea 在大 v 节点样本上训练一个好的分类器,再把分类器的参数迁移到 target domain。也就是站在巨人的肩膀上,在大 v 节点分类器的基础上去生成一个小 v 节点的分类器,从而在标签稀少的这样小 v 节点上也能实现很好的分类效果。
如图所示,首先会分别训练一个大 v 节点分类器(蓝色)和小 v 节点分类器(橙色)。在这样一个过程当中,大 v 节点和小 v 节点分类器的训练过程是互不影响的。同时还会有一个图中绿色方块所示的参数迁移模块。通过对蓝色的大 v 节点分类器的参数进行非线性变换,可以生成一个绿色的新的目标域分类器。同时这 3 个分类器都会通过分类损失作为进一步的指导。
为了保证图中绿色的从源域分类器生成的目标域分类器能够同时保留蓝色的大 v 分类器和橙色的小 v 分类器各自的领域知识,我们对生成的目标域分类器的输出分别与另外两个分类器的输出去计算 KL 散度损失,形成一个对抗和制衡的效果。最终会用绿色的这个新生成的分类器,去作为最终的小 v 节点的分类器,用于后续的评估任务。
这一过程不同于 feature-based 的迁移学习方法,这里是 parameter-based 的迁移学习方法。Feature-based 的迁移学习方法通常会学习一个 domain invariant 的 表示空间,并丢弃那些与 domain 相关的信息。而我们这里迁移的是分类器的参数。最终的损失函数由三部分构成,分别是分类损失、KL 损失,以及在第一步中用到的领域差异一致性的保障。从第一步到第三步,我们是采用端到端的训练模式,并行地去优化模型各个模块的参数。
最终,我们的模型在 Twitter,社交网络和 company 金融网络当中都取得了显著的效果提升。
第一张图是模型最终的分类效果。以 F1 score 和 AUC 作为分类性能的指标,模型在这两个数据集上比其它模型的效果都有了显著的提升。在 Twitter 上提升了4%,在 company 上提升了 5%。
同时也考虑到很多 base 模型其实不能够自动地去补全存在属性缺失的节点。所以为了公平比较,我们也将这些 GNN 模型和一些启发式的特征补全算法进行了结合。例如用 0 向量去补全,或者用邻居特征的均值去进行补全,再去 train 一些这样的 base GNN 模型。不同的 base 模型结合不同的特征补全方法的实验结果也展示在了上图当中。最终会为每个 base 模型选择最佳的特征补全策略,再与我们的模型进行对比。
上图中,表 1 展示了模型在对一些 borderline case 的验证性实验。考虑到我们的模型其实是借助跨领域的连边,也就是大 v 节点和小 v 节点之间的连边来实现知识迁移的,所以通过随机删除这种跨领域连边,并逐渐增大删除的跨领域连边的比例,来验证模型的鲁棒性。在实验结果中,即使是在删除了 70% 的跨领域连边的情况下,我们的 KTGNN 仍然能够相比于其它模型有一定的提升。
表 2 当中显示了我们的消融实验的结果。通过删除 KTGNN 中一些不同的子模块,验证删除模块后模型的分类效果。实验结果表明,完整的 KTGNN 总能达到一个最优的效果。
右图是模型学到的样本特征进行 T-SNE 可视化的结果。子图 (a) 和 (d) 当中的橙色点代表大 v 节点,青色点代表小 v 节点。KTGNN 学到的表示仍然保留了大 v 节点和小 v 节点的领域分布差异。对应在图中分别是两个不同的 cluster。在图 (b) 和图 (e) 当中,大 v 节点中的正负例区分情况也比原来的 RAW feature 有了一个很大的提升。KTGNN 学到的表示也可以较好地区分小 v 节点的正负例。即使小 v 节点的信息量比较少,学出来的小 v 节点表示仍然可以有一个比较好的正负例样本之间的区分。
这里简单介绍一下我们做的另外一个工作,也是在金融场景下,在公司风险评估任务上的一个尝试。在这里考虑了上市公司更多的数据类型,但没有考虑非上市公司,前文所介绍的工作,也是在这篇工作基础上,发现了上市公司和非上市公司的数据存在显著的分布偏移,所以才萌生了做图上的迁移学习的任务。大家感兴趣的话可以去阅读这篇论文。
在这一工作中除了使用上市公司的财报数据之外,还使用了公司的股权网络和新闻等多源异构数据,我们也把非上市公司,结合多源异构数据,同时考虑图迁移学习工作,作为我们未来的工作之一。
四、总结与展望
接下来分享对有关图迁移学习未来可能的研究方向的一些看法。我们之前尝试了 VS-Graph 上的 transductive learning 的场景,但在 VS-Graph 上的 inductive learning 其实也是很重要的。比如在实际部署模型当中,要考虑从来没有在训练集中出现过的节点。这些节点的信息量可能是更少的,而且模型在训练过程当中从来没有见到过这些节点,这样的场景也是比较有挑战的。
除此之外,之前的大多数图迁移学习工作,以及我们之前对 VS-Graph 上的尝试,讨论的主要也是 graph level 和 node level 的迁移学习问题。有关图上的边级别的迁移学习任务,其实也是一个有待挖掘的领域。例如在 VS-Graph 的场景上,图上的边既有 source domain 的领域内连边,也有 target domain 的领域内连边,还有 source domain 和 target domain 之间的跨领域连边。对于 graph 上,在做 link prediction 的时候,source node 和 target node 所属的 domain 不同的情况也是很值得讨论的。
上述两个问题都是定义在静态图的场景上面,也就是图结构是不随时间而变化的。但其实在很多真实的应用场景当中,图结构可能是随时间动态变化的。如何定义一个 dynamic 的 VS-Graph,在定义了这样一个动态的 VS-Graph 之后,所有的 node level,edge level 或者 graph level 的迁移学习任务都要再额外考虑时间的因素。以及时间维度上,本身它可能也存在分布偏移的问题。比如在不同的时间段上,图结构或者属性变化的过程可能会发生改变。如何建模这些维度的数据分布的迁移,也是一个很有挑战很有意思的任务。