在文本数据中,单词在一个句子中连接在一起,并且它们在该句子中具有固定的位置。
在图像数据中,像素排列在有序的网格空间上,可以用网格矩阵表示。
但是,图中的节点和边是无序的,并且具有特征。这导致在保留图结构的同时,将图实体映射到潜空间并且保留邻近关系具有挑战性。
图表示学习主要分为五大类:图核模型 (graph kernels)、矩阵分解模型 (matrix factorization models)、浅层模型 (shallow models)、深度神经网络模型 (deep neural network models) 和非欧几里得模型 (non-Euclidean models)。
图核模型是利用核函数,度量图与其实体之间的相似性, 图核的主要思想是将原始图分解为子结构,并基于子结构特征构造向量嵌入。
图核模型主要有两种类型:kernels for graphs 和 kernels on graphs。
局限性:图核模型处理大规模图时的计算复杂性较高,因为计算图核是一个 NP 难问题。
矩阵分解模型的目标是将邻近矩阵分解为小规模矩阵的乘积,然后拟合其邻近性以学习节点嵌入。
矩阵分解模型主要有两种类型:拉普拉斯特征分解 (Laplacian eigenmaps) 和 节点邻近矩阵分解 (Node proximity matrix factorization)。
局限性:矩阵分解模型由于计算复杂性而无法捕获高阶接近性。
浅层模型是一种嵌入模型,旨在通过最大化目标节点的邻域概率学习节点嵌入,从而将图实体映射到低维向量空间。该模型通常使用采样技术来捕获图结构和邻近关系,然后基于浅层神经网络算法学习节点嵌入。
浅层模型根据学习嵌入的策略,可分为两类:结构保存模型和邻近性重建模型。
局限性:
图神经网络 (GNN) 以归纳式学习节点嵌入。
Recurrent GNNs:旨在通过每个隐藏层中具有相同权重的递归层来学习节点嵌入,并递归运行直到收敛。不足:RGNN 模型的每个隐藏层使用相同的权重可能会导致模型无法区分局部结构和全局结构。
Graph autoencoder: 通过重构输入图结构来学习复杂的图结构, 图自动编码器由两个主要层组成:编码器层将邻接矩阵作为输入并压缩以生成节点嵌入,解码器层重建输入数据。
GCNs: 是在每个隐藏层中使用具有不同权重的卷积算子,捕获和区分局部结构和全局结构。
GAT: 通过注意力机制在消息聚合的过程中为每个邻居节点分配不同的权重。
优点:
局限性:大多数 GNN 在堆叠更多 GNN 层时,会遇到过度平滑的问题和来自相邻节点的噪声的问题。
Graph transformer models主要有三种类型:用于树状图的transformer (transformer for tree-like graphs),带GNN的 transformer (transformer with GNNs),和全局自注意力的transformer (transformer with global self-attention)。
Graph transformer 的优点:
由于现实世界中的图可能具有复杂的结构和不同的形式,因此欧几里得空间可能不足以表示图结构,并最终导致结构损失。
非欧几里得模型主要有三种:球面型 (spherical)、双曲型 (hyperbolic) 和高斯型(Gaussian)
Hoang V T, Jeon H J, You E S, et al. Graph representation learning and its applications: a survey[J]. Sensors, 2023, 23(8): 4168.