[发明专利]基于Transformer的图卷积网络的引文网络分类模型建立及分类在审

申请号：	202210306043.7	申请日：	2022-03-25
公开（公告）号：	CN114741507A	公开（公告）日：	2022-07-12
发明（设计）人：	郭凌;柏恒;许鹏飞;赵玄润;梁伟;章盼盼	申请（专利权）人：	西北大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司：	西安恒泰知识产权代理事务所 61216	代理人：	李郑建
地址：	710069 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 transformer 图卷网络引文分类模型建立
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Transformer的图卷积网络的引文网络分类模型建立方法，其特征在于，包括如下步骤：

步骤1：获取引文网络数据

引文网络数据包括确定节点的主体身份，收集结点的语料特征，确定节点的标签，确定节点间的关系；最终建立节点的特征矩阵X，节点的标签矩阵Y，以及节点关系图的邻接矩阵G，同时将数据分为训练集、验证集、测试集；

步骤2：建立基于Transformer的图卷积网络模型

所建立的基于Transformer的图卷积网络模型，包括一个K层的简化图卷积网络模块，一个经过改造的Transformer编码器；然后利用简化图卷积网络对所有节点进行特征的卷积传播，利用Transformer编码器对训练集的所有节点的每层特征学习一个全局特征用以分类，最后利用训练好的Transformer编码器对测试结点进行分类；

其中，所述的基于Transformer的图卷积网络模型的训练模型包括如下子步骤：

步骤2.1：计算卷积传播矩阵S：

将简化图卷积网络对图上卷积的定义如式1所示：

式中，g_θ'是一个卷积滤波器，X是输入图信号即节点特征，θ是可学习参数矩阵，是归一化图拉普拉斯矩阵，是的度矩阵，S是规范化图邻接矩阵；

考虑将其拓展为多层结构，且不使用非线性变换，则多层的卷积传播可表示为F＝S…SXθ₁…θ_K，然后，仅在卷积层进行特征提取，并不需要在每层进行训练学习参数，进一步假定θ₁＝…＝θ_K＝1，即有：

F＝S^KX (式2)

式中，S^K是规范化图邻接矩阵的K次幂，X是输入节点特征矩阵；

计算传播矩阵其中，为的度矩阵；S是规范化图邻接矩阵，是归一化拉普拉斯矩阵；

步骤2.2：对特征矩阵X进行K次特征卷积传播，具体方法为：

以特征矩阵X作为输入，每层网络对输入作用一次S，并且当前层的输入为上一层网络的输出，并且为每层的输出增加一次标准化操作，将每层输出特征映射到同一分布，然后将每一层网络的输出都保存起来，为每个节点形成一个序列特征；

假定输入特征矩阵X的维度为n×d，那么最终简化卷积网络的输出F的维度为k×n×d；

步骤2.3：提取训练集特征矩阵F_train：

根据训练集节点的序号从上一步得到的特征矩阵F中将训练集特征全部提取出来，得到用于训练Transformer编码器的特征矩阵F_train，假定训练集大小为t，则F_train的大小为k×t×d。

步骤2.4：提取训练集标签Y_train：

根据训练集节点的序号从标签矩阵中将训练集标签Y_train提取出来；假定类别为c，训练集大小为t，则训练集标签Y_train大小为t×c；

步骤2.5：将F_train与Y_train输入到Transformer编码器中学习全局特征，使用学习到的全局特征来进行最终节点类别的预测，具体方法是：

首先将F_train经过一个MLP编码网络映射到一个低维空间，输出大小为一个可调节的超参数；

接着为每个节点的序列特征前增加一个分类头CLS TOKEN，这个分类头是一个全零特征，负责与序列中的其他特征交互学习，形成最终的全局特征；

经过MLP低维映射和增加CLS TOKEN后，节点特征变为式3所示：

Z₀＝【x_CLSTOKEN，x₁E，x₂E，…，x_kE】 (式3)

式中，x_CLSTOKEN是在特征序列头部增加的初始化可学习全局特征，x₁，x₂，…，x_k是上一步卷积过后每一层的输出特征，E是代表经过一层MLP进行低维编码；

然后输入特征在经过多个多头注意力块(MSA)以及MLP块堆叠形成的Transformer编码器中进行学习，具体方法为：

输入特征会先经过一层LayerNorm，接着会应用一层多头注意力块(MSA)，多头注意力的输出与LayerNorm之前的输入会经过一次残差连接，得到z′_l，如式4所示：

z′_l＝MSA(LN(z_l-1))+z_l-1 (式4)

式中，LN()表示进行LayerNorm，MSA()表示作用一次多头注意力块，z′_l表示当前层输出，Z_l-1表示当前层输入；

然后，z′_l会再经过一次LayerNorm与MLP，最后MLP的输出与多头注意力块(MSA)的输出再做一次残差得到Z_l，如式5所示：

z_l＝MLP(LN(z′_l))+z′_l (式5)

式中，LN()表示进行LayerNorm，MLP()表示经过一次MLP层，z′_l表示当前层输入，Z_l表示当前层输出；

最后对学习到的全局特征再作用一次LayerNorm后以其作为最终的分类特征，将其输入到一个MLP类别预测网络中得到预测类别；

然后计算预测类别与实际类别的交叉熵损失，在反向传播更新网络中的所有参数完成训练。

2.权利要求1所建立的基于Transformer的图卷积网络的引文网络分类模型的分类方法，其特征在于，包括如下步骤：

步骤一：从待测特征矩阵F中取一个待测特征序列Z＝【x₁，x₂，…，x_k】；

步骤二：初始化一个Transformer编码器，并加载已训练好的参数；

步骤三：将待测特征序列Z＝【x₁，x₂，…，x_k】输入到Transformer编码器中进行状态编码，得到全局状态特征Z₀；

其中，类别预测过程包括以下步骤：

步骤a：将特征序列Z中的每个子特征输入到已训练好的MLP编码网络中得到其低维映射表示Z'＝【x₁E，x₂E，…，x_kE】；

步骤b：在经过低维编码后的低维特征序列Z'的头部增加一个全零特征CLS TOKEN，得到Transformer编码器的输入特征Z^input＝【x_CLSTOKEN，x₁E，x₂E，…，x_kE】，并使用该特征学习一个全局分类特征；

步骤c:将输入特征Z^input＝【x_CLSTOKEN，x₁E，x₂E，…，x_kE】输入到以训练并加载好的Transformer编码器中进行编码计算，得到Z^output＝【Z₀，Z₁，Z₂…，Z_k】，Z₀为编码得到的全局状态特征；

步骤四：将上一步得到的全局状态特征Z₀输入到已训练好的类别预测MLP网络中进行类别预测，得到最终分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北大学，未经西北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210306043.7/1.html，转载请声明来源钻瓜专利网。

上一篇：基于拓扑优化的宏微多级协同点阵结构的优化方法
下一篇：一种穿戴式手关节循环训练方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Transformer的图卷积网络的引文网络分类模型建立及分类在审

专利文献下载