[发明专利]基于Transformer的图卷积网络的引文网络分类模型建立及分类在审

专利信息
申请号: 202210306043.7 申请日: 2022-03-25
公开(公告)号: CN114741507A 公开(公告)日: 2022-07-12
发明(设计)人: 郭凌;柏恒;许鹏飞;赵玄润;梁伟;章盼盼 申请(专利权)人: 西北大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司: 西安恒泰知识产权代理事务所 61216 代理人: 李郑建
地址: 710069 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 transformer 图卷 网络 引文 分类 模型 建立
【权利要求书】:

1.一种基于Transformer的图卷积网络的引文网络分类模型建立方法,其特征在于,包括如下步骤:

步骤1:获取引文网络数据

引文网络数据包括确定节点的主体身份,收集结点的语料特征,确定节点的标签,确定节点间的关系;最终建立节点的特征矩阵X,节点的标签矩阵Y,以及节点关系图的邻接矩阵G,同时将数据分为训练集、验证集、测试集;

步骤2:建立基于Transformer的图卷积网络模型

所建立的基于Transformer的图卷积网络模型,包括一个K层的简化图卷积网络模块,一个经过改造的Transformer编码器;然后利用简化图卷积网络对所有节点进行特征的卷积传播,利用Transformer编码器对训练集的所有节点的每层特征学习一个全局特征用以分类,最后利用训练好的Transformer编码器对测试结点进行分类;

其中,所述的基于Transformer的图卷积网络模型的训练模型包括如下子步骤:

步骤2.1:计算卷积传播矩阵S:

将简化图卷积网络对图上卷积的定义如式1所示:

式中,gθ'是一个卷积滤波器,X是输入图信号即节点特征,θ是可学习参数矩阵,是归一化图拉普拉斯矩阵,是的度矩阵,S是规范化图邻接矩阵;

考虑将其拓展为多层结构,且不使用非线性变换,则多层的卷积传播可表示为F=S…SXθ1…θK,然后,仅在卷积层进行特征提取,并不需要在每层进行训练学习参数,进一步假定θ1=…=θK=1,即有:

F=SKX (式2)

式中,SK是规范化图邻接矩阵的K次幂,X是输入节点特征矩阵;

计算传播矩阵其中,为的度矩阵;S是规范化图邻接矩阵,是归一化拉普拉斯矩阵;

步骤2.2:对特征矩阵X进行K次特征卷积传播,具体方法为:

以特征矩阵X作为输入,每层网络对输入作用一次S,并且当前层的输入为上一层网络的输出,并且为每层的输出增加一次标准化操作,将每层输出特征映射到同一分布,然后将每一层网络的输出都保存起来,为每个节点形成一个序列特征;

假定输入特征矩阵X的维度为n×d,那么最终简化卷积网络的输出F的维度为k×n×d;

步骤2.3:提取训练集特征矩阵Ftrain

根据训练集节点的序号从上一步得到的特征矩阵F中将训练集特征全部提取出来,得到用于训练Transformer编码器的特征矩阵Ftrain,假定训练集大小为t,则Ftrain的大小为k×t×d。

步骤2.4:提取训练集标签Ytrain

根据训练集节点的序号从标签矩阵中将训练集标签Ytrain提取出来;假定类别为c,训练集大小为t,则训练集标签Ytrain大小为t×c;

步骤2.5:将Ftrain与Ytrain输入到Transformer编码器中学习全局特征,使用学习到的全局特征来进行最终节点类别的预测,具体方法是:

首先将Ftrain经过一个MLP编码网络映射到一个低维空间,输出大小为一个可调节的超参数;

接着为每个节点的序列特征前增加一个分类头CLS TOKEN,这个分类头是一个全零特征,负责与序列中的其他特征交互学习,形成最终的全局特征;

经过MLP低维映射和增加CLS TOKEN后,节点特征变为式3所示:

Z0=【xCLSTOKEN,x1E,x2E,…,xkE】 (式3)

式中,xCLSTOKEN是在特征序列头部增加的初始化可学习全局特征,x1,x2,…,xk是上一步卷积过后每一层的输出特征,E是代表经过一层MLP进行低维编码;

然后输入特征在经过多个多头注意力块(MSA)以及MLP块堆叠形成的Transformer编码器中进行学习,具体方法为:

输入特征会先经过一层LayerNorm,接着会应用一层多头注意力块(MSA),多头注意力的输出与LayerNorm之前的输入会经过一次残差连接,得到z′l,如式4所示:

z′l=MSA(LN(zl-1))+zl-1 (式4)

式中,LN()表示进行LayerNorm,MSA()表示作用一次多头注意力块,z′l表示当前层输出,Zl-1表示当前层输入;

然后,z′l会再经过一次LayerNorm与MLP,最后MLP的输出与多头注意力块(MSA)的输出再做一次残差得到Zl,如式5所示:

zl=MLP(LN(z′l))+z′l (式5)

式中,LN()表示进行LayerNorm,MLP()表示经过一次MLP层,z′l表示当前层输入,Zl表示当前层输出;

最后对学习到的全局特征再作用一次LayerNorm后以其作为最终的分类特征,将其输入到一个MLP类别预测网络中得到预测类别;

然后计算预测类别与实际类别的交叉熵损失,在反向传播更新网络中的所有参数完成训练。

2.权利要求1所建立的基于Transformer的图卷积网络的引文网络分类模型的分类方法,其特征在于,包括如下步骤:

步骤一:从待测特征矩阵F中取一个待测特征序列Z=【x1,x2,…,xk】;

步骤二:初始化一个Transformer编码器,并加载已训练好的参数;

步骤三:将待测特征序列Z=【x1,x2,…,xk】输入到Transformer编码器中进行状态编码,得到全局状态特征Z0

其中,类别预测过程包括以下步骤:

步骤a:将特征序列Z中的每个子特征输入到已训练好的MLP编码网络中得到其低维映射表示Z'=【x1E,x2E,…,xkE】;

步骤b:在经过低维编码后的低维特征序列Z'的头部增加一个全零特征CLS TOKEN,得到Transformer编码器的输入特征Zinput=【xCLSTOKEN,x1E,x2E,…,xkE】,并使用该特征学习一个全局分类特征;

步骤c:将输入特征Zinput=【xCLSTOKEN,x1E,x2E,…,xkE】输入到以训练并加载好的Transformer编码器中进行编码计算,得到Zoutput=【Z0,Z1,Z2…,Zk】,Z0为编码得到的全局状态特征;

步骤四:将上一步得到的全局状态特征Z0输入到已训练好的类别预测MLP网络中进行类别预测,得到最终分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210306043.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top