GRAPH ATTENTION NETWORKS

摘要

我们提出了图注意网络GATs，这是一种操作图结构数据的新型神经网络架构，利用masked self-attentional层来解决现有的基于图卷积或其近似的方法的缺点。通过堆叠里面的节点能影响其邻域特征的层，我们可以（隐式地）为邻域中的不同节点指定不同的权重，而不需要任何复杂的矩阵运算（如求逆），也不需要事先知道图结构。

通过这种方式，我们同时解决了基于谱的图神经网络的几个关键挑战，并使我们的模型易用于归纳(inductive)和推导(transductive)问题。我们的GAT模型已经在四个推导和归纳图的基准上达到或匹配了最新结果：Cora、Citeser和Pubmed引用网络数据集，以及protein-protein interaction数据集（其中测试图在训练期间不可见）。

引言

卷积神经网络CNN已成功应用于解决图像分类、语义分割或机器翻译等问题，其中底层的数据表示具有网格结构。这些体系结构通过将具有可学习参数的局部滤波器作用于所有输入位置，有效地重用了这些滤波器。

然而，许多有趣的任务涉及的数据不能以网格结构表示，反而是位于不规则域中。这正是3D网格、社交网络、电信网络、生物网络或大脑连接体的场景。这种数据通常可以用图的形式表示。

有文献曾多次尝试将神经网络扩展到处理任意结构的图。早期的工作使用递归神经网络来处理图域中表示为有向无环图的数据。Gori和Scarselli等人提出了图神经网络GNN，作为递归神经网络的推广，可以直接处理更一般的图，例如循环图、有向图和无向图。GNN包含一个迭代过程，该过程里对节点状态进行传播，直到平衡，后面接一个神经网络，它根据每个节点的状态产生输出。Li等人采纳并改进了这一想法，提出在传播步骤中使用门控循环单元。

然而，人们对将卷积推广到图域越来越感兴趣。这方面的进展通常分为谱方法和非谱方法。

一方面，谱方法处理图的谱表示，并已成功应用于节点分类。在Bruna等人的文献中，卷积定义为在傅里叶域计算图的拉普拉斯的特征分解，这会导致潜在的密集计算和非空间局部化滤波器。这些问题在随后的工作中得到了解决。

Henaff等人提出了具有平滑系数的光谱滤波器的参数化，以使其在空间上局部化。后来，Defferrard等人提出通过图拉普拉斯的切比雪夫展开来近似滤波器，避免了计算拉普拉斯特征向量，并产生了空间局部化滤波器。最后，Kipf&Welling通过限制滤波器在每个节点周围的一阶邻域中运行，简化了先前的方法。

然而，在所有上述频谱方法中，学习滤波器取决于拉普拉斯的特征基，而拉普拉斯特征基取决于图结构。因此，在特定结构上训练的模型不能直接应用于具有不同结构的图。

另一方面，我们有非谱方法，直接在图上定义卷积，在空间上相邻的组上操作。这些方法的挑战之一是定义一个算子，该算子作用于大小不同的邻域上，并保持CNN权重共享特性。在某些情况下，这需要针对每个节点度学习特定的权重矩阵，使用转移矩阵的幂来定义邻域，同时学习每个输入通道和邻域度的权重，或提取并归一化包含固定数量节点的邻域。Monti等人提出了混合模型CNN（MoNet），这是一种空间方法，可将CNN架构统一概括为图。最近，Hamilton等人引入了GraphSAGE，这是一种以归纳方式计算节点表示的方法。该技术通过对每个节点的固定大小的邻域进行采样，然后对其执行特定的聚合器（例如所有采样的邻域特征向量的平均值，或通过递归神经网络对其进行反馈的结果）。这种方法在几个大型归纳基准中取得了令人印象深刻的性能。

注意力机制几乎已成为许多基于序列的任务中的事实标准。注意力机制的一个好处是，它们允许处理可变大小的输入，关注输入中最相关的部分以做出决策。当注意力机制用于计算单个序列的表示时，通常称为自注意力或内部注意力。与递归神经网络RNN或卷积一起，自注意力已被证明对机器阅读和学习句子表示等任务有用。然而，Vaswani等人表明，自注意力不仅可以改进基于RNN或卷积的方法，而且足以构建一个强大的模型，在机器翻译任务中获得最先进的效果。

受这项最新工作的启发，我们引入了一种基于注意力的架构来执行图结构数据的节点分类。The idea is to compute the hidden representations of each node in the graph, by attending over its neighbors, following a self-attention strategy. 其思想是通过关注其邻域，遵循自我关注策略，计算图中每个节点的隐藏表示。注意力结构有几个有趣的特性：

操作是有效的，因为它可以跨节点领域并行化；
通过对邻域指定任意权重，它可以应用于具有不同度的图节点；
该模型直接适用于归纳学习问题，包括模型必须推广到完全看不见的图的任务。

我们在四个具有挑战性的基准上验证了所提出的方法：Cora、Citeser和Pubmed引用网络以及protein-protein interaction数据集，达到或匹配了最先进的结果，突出了基于注意力的模型在处理任意结构图时的潜力。

值得注意的是，正如Kipf&Welling和Atwood&Towsley，我们的工作也可以被重新表述为MoNet的一个特定实例。此外，我们跨边共享神经网络计算的方法让人想起关系网络的公式和VAIN，其中通过采用共享机制，代理按对聚合。类似地，我们提出的注意力模型可以连接到Duan等人和Denil等人的作品，他们使用邻域注意力运算来计算环境中不同对象之间的注意力系数。其他相关方法包括局部线性嵌入LLE和记忆网络。LLE在每个数据点周围选择固定数量的邻居，并学习每个邻居的权重系数，以将每个点重构为其邻居的加权和。第二优化步骤提取该点的特征嵌入。记忆网络也与我们的工作有一些联系，特别是如果我们将节点的邻域解释为内存，内存用于通过关注其值来计算节点特征，然后通过将新特征存储在同一位置来更新。

`GAT`架构

本节中，我们将介绍用于构建任意图注意力网络(GAT)的构建块层（通过堆叠该层），并概述其与神经图处理领域先前工作相比的理论和实践优势以及局限性。

图注意力层

我们将从描述单个图注意力层开始，作为实验中所有GAT架构中使用到的唯一一层。我们使用的特定注意力设置与Bahdanau等人的工作密切相关，除了该框架无需感知注意力机制的选择。

图注意力层的输入是一组节点特征，$\mathbf{h} = { \vec{h}{1}, \vec{h}{2},…,\vec{h}{N} }, \ \vec{h}{i} \in \mathbb{R}^{F}$，其中 $N$ 是节点的数量，$F$ 是每个节点的特征的数量。

该层产生一组新的节点特征 $\mathbf{h}^{‘} = { \vec{h^{‘}}{1}, \vec{h^{‘}}{2},…,\vec{h^{‘}}{N} }, \ \vec{h^{‘}}{i} \in \mathbb{R}^{F^{‘}}$ 作为其输出（基数 $F^{‘}$ 可能不同）。

为了获得足够的表达能力来将输入特征转换为更高层次的特征，需要至少一个可学习的线性变换。为此，作为初始步骤，对每个节点应用共享线性变换，该变换的权重矩阵参数 $\mathbf{W} \in \mathbb{R}^{F^{‘} \times F}$。然后在节点上应用一种共享的自注意力机制 $a: \mathbb{R}^{F{‘}} \times \mathbb{R}^{F{‘}} \to \mathbb{R}$ 计算注意力系数

\[e_{ij} = a \big( \mathbf{W} \vec{h}_{i},\mathbf{W} \vec{h}_{j} \big)\]

这表明节点 $j$ 的特征对节点 $i$ 的重要性。在其最一般的公式中，该模型允许每个节点参与其他每个节点，丢失了所有结构信息。我们通过执行masked attention将图的结构信息引入到注意力机制中—我们只计算节点 $j \in \mathcal{N}{i}$ 的 $e{ij}$，其中 $\mathcal{N}_{i}$ 是节点 $i$ 的邻域。在我们的所有实验中，这些都指的是 $i$ 的一阶邻域（包括 $i$ ）。为了便于不同节点间比较系数，我们使用softmax函数对所有 $j$ 中的系数进行归一化：

$\alpha_{i,j} = \text{softmax}_{j}(e_{ij}) = \frac{ \text{exp} (e_{ij}) } { \sum_{k \in \mathcal{N}(i)\cup\{i\}} \text{exp} (e_{ik}) }$ 在我们的实验中，注意力机制 $a$ 是一个单层前馈神经网络，权重向量参数 $\mathbf{\vec{a}} \in \mathbb{R}^{2F^{‘}}$，用LeakyReLU引入非线性(负输入斜率 $\alpha =0.2$ )。完全展开后，注意力机制计算的系数（如图1(左)所示）可以表示为：

\[\alpha_{i,j} = \frac{ \text{exp} \Big( \text{LeakyReLU} \Big(\mathbf{\vec{a}}^{T}[\mathbf{W} \vec{h}_{i} \Vert \mathbf{W} \vec{h}_{j}] \Big) \Big) } { \sum_{k \in \mathcal{N}(i)\cup\{i\}} \text{exp} \Big( \text{LeakyReLU} \Big( \mathbf{\vec{a}}^{T} [\mathbf{W} \vec{h}_{i} \Vert \mathbf{W} \vec{h}_{k}]] \Big) \Big) }\]

其中 $ \cdot^{T}$ 表示转置， $\Vert$ 表示链接(Concat)操作。

评估

数据集

最先进方法

建立实验

结果

结论

我们提出了图注意力网络GATs，这是一种新型的卷积式神经网络，利用masked self-attentional层对图结构数据进行操作。这些网络中使用的图注意力层在计算上是高效的（不需要昂贵的矩阵运算，且可以在图中所有节点上并行），允许（隐式地）向邻域内的不同节点分配不同的重要性，可以处理不同大小的邻域，且不依赖于预先知道整个图的结构，从而解决了以前基于谱的方法的许多理论问题。我们基于注意力的模型在四个成熟的节点分类基准中达到了最先进的效果，包括推导和归纳（尤其是使用完全看不见的图进行测试）。

图注意力网络有几个潜在的改进和扩展，可以作为未来的工作，例如克服第2.2小节相关工作对比中描述的实际问题，以便能够处理更大的批量。一个特别有趣的研究方向是利用注意力机制对模型的可解释性进行彻底分析。此外，从应用的角度来看，将该方法扩展为执行图分类而不是节点分类也是相关的。最后，扩展模型以合并边特征（可能指示节点之间的关系）将允许我们处理更多种类的问题。

GATConv-Graph Attention Networks

摘要

引言

`GAT`架构

图注意力层

相关工作对比

评估

数据集

最先进方法

建立实验

结果

结论

Trending Tags

GATConv-Graph Attention Networks

摘要

引言

GAT架构

图注意力层

相关工作对比

评估

数据集

最先进方法

建立实验

结果

结论

Further Reading

GAT

GCN

GNN

Trending Tags

`GAT`架构