本文介绍一篇 AAAI-2023 发表的论文,基于可学习图增强的邻居监督图对比学习 [1]。为了改善现有的图对比学习方法在图增强和图对比损失两方面的缺陷,该论文提出了基于可学习图增强的邻居监督图对比学习模型(Neighbor Contrastive Learning on Learnable Graph Augmentation, NCLA)[1]。
一、前言论文链接:
https://ojs.aaai.org/index.php/AAAI/article/view/26168
论文代码:
https://github.com/shenxiaocam/NCLA
近几年来,对比学习在 CV 和 NLP 领域的无监督表示学习任务上展现了显著的成果。受此启发,研究者们提出一系列图对比学习(Graph Contrastive Learning)方法 [2, 3],通过结合图神经网络和对比学习,旨在从未标记的图数据中学习嵌入表示,以缓解图数据标签缺乏的问题。
现有的图对比学习方法通常采用人为设计的图增强策略(Handcraft Graph Augmentation),如属性掩蔽 [4]、属性扰动 [5]、删除边 [3]、丢弃节点 [6] 等,生成两个或多个具有差异性的增强视图。然而,由于图数据的多样性,难以找到可适用于不同图数据集的图增强策略,而需要依据领域先验知识或反复试错的方式手动为每个图数据集选择合适的图增强 [6],这大幅限制了图对比学习方法的效率和泛化能力。
另外,现有的人为图增强,有可能删除某些关键的节点或边,严重损坏下游任务的相关信息,导致低质量的图嵌入 [4]。另一方面,现有的图对比学习方法通常将 CV 领域提出的对比损失(如 InfoNCE [7]、NT-Xent [8])直接应用于图结构数据 [3, 6, 9, 10],而忽略了图像与图数据的本质区别。
需要注意的是,InfoNCE 和 NT-Xent 只允许每个锚点构建一对正样本,即同一节点在不同视图中的嵌入构成一对正样本,而将其他与锚点不同的节点均视为负样本。这意味着锚点的邻居节点也视为负样本,进而被推离锚点。然而,大部分的图数据都基于同质性假设,即相连的节点应彼此相似 [11]。因此,直接采用 CV 领域提出的 InfoNCE 和 NT-Xent 作为图对比损失,由于忽略考虑图拓扑结构信息,将导致生成的节点嵌入与图的同质性假设相矛盾。
二、方法为了改善现有的图对比学习方法在图增强和图对比损失两方面的缺陷,该论文提出了基于可学习图增强的邻居监督图对比学习模型(Neighbor Contrastive Learning on Learnable Graph Augmentation, NCLA)[1]。NCLA 的模型框架如 Fig.1 所示。
首先, NCLA 采用多头图注意力机制自动学习 K 个具有不同自适应拓扑邻接矩阵的增强视图。其次,对于每个增强视图,采用独立的图编码器学习对应的节点嵌入。需要注意的是,不同的增强视图采用不共享的图增强和图嵌入可学习参数,从而保证生成的视图之间具有一定的差异性。
此外,基于多头图注意力机制的可学习图增强,可使得不同的视图保留与原图一致的节点和边,而同一条边在不同视图中具有不同的注意力权重,这可防止对原始拓扑结构的不适应修改,避免破坏下游任务的相关信息。此外,基于多头图注意力机制的图增强方法端到端自动学习,可兼容于不同的图数据集,而不需要依靠领域知识进行人为选择。
另一方面,当前的图对比学习方法通常直接采用 CV 领域提出的 InfoNCE 和 NT-Xent 作为对比损失。这些损失忽略考虑图的拓扑结构信息,将邻居节点视为锚点的负样本,进而推离锚点,这与图的同质性假设相矛盾。针对此问题,在 NT-Xent 的基础上,该论文提出一种新的邻居监督图对比损失(Neighbor Contrastive Loss),采用拓扑结构作为监督信号来定义点-点图对比学习的正样本对和负样本对。
具体来说,不同于 NT-Xent 中每个锚点只能构建一对正样本,邻居监督图对比损失允许每个锚点具有三类正样本,分别是
1)来自不同视图的同一节点;
2)来自同一视图的邻居节点,
3)来自不同视图的邻居节点。
反之,来自同一视图和不同视图的非邻居节点将被视为锚点的两类负样本。Fig. 2 展示了三种图对比损失,InfoNCE、NT-Xent 和邻居监督图对比损失中正负样本对的差异。