[发明专利]基于Transformer的图卷积网络的引文网络分类模型建立及分类在审
申请号: | 202210306043.7 | 申请日: | 2022-03-25 |
公开(公告)号: | CN114741507A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 郭凌;柏恒;许鹏飞;赵玄润;梁伟;章盼盼 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李郑建 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 图卷 网络 引文 分类 模型 建立 | ||
1.一种基于Transformer的图卷积网络的引文网络分类模型建立方法,其特征在于,包括如下步骤:
步骤1:获取引文网络数据
引文网络数据包括确定节点的主体身份,收集结点的语料特征,确定节点的标签,确定节点间的关系;最终建立节点的特征矩阵X,节点的标签矩阵Y,以及节点关系图的邻接矩阵G,同时将数据分为训练集、验证集、测试集;
步骤2:建立基于Transformer的图卷积网络模型
所建立的基于Transformer的图卷积网络模型,包括一个K层的简化图卷积网络模块,一个经过改造的Transformer编码器;然后利用简化图卷积网络对所有节点进行特征的卷积传播,利用Transformer编码器对训练集的所有节点的每层特征学习一个全局特征用以分类,最后利用训练好的Transformer编码器对测试结点进行分类;
其中,所述的基于Transformer的图卷积网络模型的训练模型包括如下子步骤:
步骤2.1:计算卷积传播矩阵S:
将简化图卷积网络对图上卷积的定义如式1所示:
式中,gθ'是一个卷积滤波器,X是输入图信号即节点特征,θ是可学习参数矩阵,是归一化图拉普拉斯矩阵,是的度矩阵,S是规范化图邻接矩阵;
考虑将其拓展为多层结构,且不使用非线性变换,则多层的卷积传播可表示为F=S…SXθ1…θK,然后,仅在卷积层进行特征提取,并不需要在每层进行训练学习参数,进一步假定θ1=…=θK=1,即有:
F=SKX (式2)
式中,SK是规范化图邻接矩阵的K次幂,X是输入节点特征矩阵;
计算传播矩阵其中,为的度矩阵;S是规范化图邻接矩阵,是归一化拉普拉斯矩阵;
步骤2.2:对特征矩阵X进行K次特征卷积传播,具体方法为:
以特征矩阵X作为输入,每层网络对输入作用一次S,并且当前层的输入为上一层网络的输出,并且为每层的输出增加一次标准化操作,将每层输出特征映射到同一分布,然后将每一层网络的输出都保存起来,为每个节点形成一个序列特征;
假定输入特征矩阵X的维度为n×d,那么最终简化卷积网络的输出F的维度为k×n×d;
步骤2.3:提取训练集特征矩阵Ftrain:
根据训练集节点的序号从上一步得到的特征矩阵F中将训练集特征全部提取出来,得到用于训练Transformer编码器的特征矩阵Ftrain,假定训练集大小为t,则Ftrain的大小为k×t×d。
步骤2.4:提取训练集标签Ytrain:
根据训练集节点的序号从标签矩阵中将训练集标签Ytrain提取出来;假定类别为c,训练集大小为t,则训练集标签Ytrain大小为t×c;
步骤2.5:将Ftrain与Ytrain输入到Transformer编码器中学习全局特征,使用学习到的全局特征来进行最终节点类别的预测,具体方法是:
首先将Ftrain经过一个MLP编码网络映射到一个低维空间,输出大小为一个可调节的超参数;
接着为每个节点的序列特征前增加一个分类头CLS TOKEN,这个分类头是一个全零特征,负责与序列中的其他特征交互学习,形成最终的全局特征;
经过MLP低维映射和增加CLS TOKEN后,节点特征变为式3所示:
Z0=【xCLSTOKEN,x1E,x2E,…,xkE】 (式3)
式中,xCLSTOKEN是在特征序列头部增加的初始化可学习全局特征,x1,x2,…,xk是上一步卷积过后每一层的输出特征,E是代表经过一层MLP进行低维编码;
然后输入特征在经过多个多头注意力块(MSA)以及MLP块堆叠形成的Transformer编码器中进行学习,具体方法为:
输入特征会先经过一层LayerNorm,接着会应用一层多头注意力块(MSA),多头注意力的输出与LayerNorm之前的输入会经过一次残差连接,得到z′l,如式4所示:
z′l=MSA(LN(zl-1))+zl-1 (式4)
式中,LN()表示进行LayerNorm,MSA()表示作用一次多头注意力块,z′l表示当前层输出,Zl-1表示当前层输入;
然后,z′l会再经过一次LayerNorm与MLP,最后MLP的输出与多头注意力块(MSA)的输出再做一次残差得到Zl,如式5所示:
zl=MLP(LN(z′l))+z′l (式5)
式中,LN()表示进行LayerNorm,MLP()表示经过一次MLP层,z′l表示当前层输入,Zl表示当前层输出;
最后对学习到的全局特征再作用一次LayerNorm后以其作为最终的分类特征,将其输入到一个MLP类别预测网络中得到预测类别;
然后计算预测类别与实际类别的交叉熵损失,在反向传播更新网络中的所有参数完成训练。
2.权利要求1所建立的基于Transformer的图卷积网络的引文网络分类模型的分类方法,其特征在于,包括如下步骤:
步骤一:从待测特征矩阵F中取一个待测特征序列Z=【x1,x2,…,xk】;
步骤二:初始化一个Transformer编码器,并加载已训练好的参数;
步骤三:将待测特征序列Z=【x1,x2,…,xk】输入到Transformer编码器中进行状态编码,得到全局状态特征Z0;
其中,类别预测过程包括以下步骤:
步骤a:将特征序列Z中的每个子特征输入到已训练好的MLP编码网络中得到其低维映射表示Z'=【x1E,x2E,…,xkE】;
步骤b:在经过低维编码后的低维特征序列Z'的头部增加一个全零特征CLS TOKEN,得到Transformer编码器的输入特征Zinput=【xCLSTOKEN,x1E,x2E,…,xkE】,并使用该特征学习一个全局分类特征;
步骤c:将输入特征Zinput=【xCLSTOKEN,x1E,x2E,…,xkE】输入到以训练并加载好的Transformer编码器中进行编码计算,得到Zoutput=【Z0,Z1,Z2…,Zk】,Z0为编码得到的全局状态特征;
步骤四:将上一步得到的全局状态特征Z0输入到已训练好的类别预测MLP网络中进行类别预测,得到最终分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210306043.7/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法