[发明专利]基于具有自注意力机制的图卷积神经网络文本分类方法在审
申请号: | 202110082121.5 | 申请日: | 2021-01-21 |
公开(公告)号: | CN112765352A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 项林英;王国庆;陈飞 | 申请(专利权)人: | 东北大学秦皇岛分校 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06F40/216;G06F40/289;G06F40/30;G06K9/62;G06N3/08 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
地址: | 066004 河北省秦*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 具有 注意力 机制 图卷 神经网络 文本 分类 方法 | ||
本发明提供一种基于具有自注意力机制的图卷积神经网络文本分类方法,涉及人工智能和信息技术技术领域。该方法首先获取多个待分类的文本存储到语料库中,同时对待分类的文本进行分词处理获得文本分词序列,并进行预处理;然后使用自注意力机制得到文本分词序列的自注意力机制矩阵;再对所有文本构建图网络结构;对图网络结构进行预处理,计算图的Laplacian矩阵并进行归一化;在图的Laplacian矩阵基础上构建和训练图卷积神经网络模型;最后通过Softmax分类器,得到文本分类结果。该分类方法能够较好地捕捉文本间的语义信息相关性,从而更好地表达出文本信息中的隐含关系,实现对文本的精准分类。
技术领域
本发明涉及人工智能和信息技术技术领域,尤其涉及一种基于具有自注意力机制的图卷积神经网络文本分类方法。
背景技术
随着深度学习技术的迅速发展,数据规模呈现出爆炸性增长趋势,越来越多的研究人员将深度学习和神经网络方法应用到图网络结构领域,推动了深度学习研究领域的快速发展。图神经网络是一类基于深度学习的处理图网络结构的方法,且具有较好的性能和可解释性。在短短的几年内,鉴于神经网络在图像、文本领域的广泛应用,一部分研究学者尝试将神经网络方法与图网络结构结合起来,图神经网络研究逐渐成为深度学习领域的热潮。图数据具有很强的局部耦合性,节点之间存在一定的关系,因此图的表示需要包含图的结构信息和特征属性。
文本分类的核心就是从文本中提取分类数据的特征,然后选择合适的分类算法和模型对特征进行建模,从而实现文本分类。文本分类的基础任务是将文档数据转换成计算机能够识别的表达方式,合理有效的文本表示是保证文本分类质量的重要前提。目前文本表示的主要方法分为三大类:第一类是基于传统文本分类技术,由特征提取和分类器分类组成。第二类是基于深度学习方法,通过深度学习方法学习文本中的特征。第三类是基于图结构的表示方法,主要是将文档表示为图网络结构,对文本数据的分析转换为对图数据的分析。尽管这些方法都有各自的优点,但难以保证得到整体分类效果的最优模型。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于具有自注意力机制的图卷积神经网络文本分类方法,将数据库中的文本表示为图网络结构,利用自注意力机制获取分词序列的自注意力机制矩阵,并进行融合降维处理,将自注意力机制矩阵作为图卷积神经网络模型的输入,再经过Softmax分类器输出每个文本的类别。
为解决上述技术问题,本发明所采取的技术方案是:基于具有自注意力机制的图卷积神经网络文本分类方法,包括以下步骤:
步骤1:获取待分类的文本分词序列,并进行预处理;
获取多个待分类的文本存储到语料库中,同时对待分类的文本进行分词处理获得文本分词序列;在文本分词序列中,对无效词或者停止词进行过滤处理;
步骤2:获取过滤处理后的文本分词序列的嵌入矩阵,使用自注意力机制得到文本分词序列的自注意力机制矩阵;
对步骤1中得到的预处理后的文本分词序列进行编码,建立文本词向量,将文本词向量输入到自注意力机制中,得到自注意力机制词向量,并计算各自注意力机制词向量的权重;
根据自注意力机制的查询Query与地址Key,计算各自注意力机制词向量与其邻居自注意力机制词向量之间的相似度,相似度计算函数为Simi(Query,Key)=Queryi·Keyi,其中,Queryi,Keyi分别为第i个自注意力机制词向量的查询和地址;然后使用Softmax函数对各自注意力机制词向量进行归一化处理得到各自注意力机制词向量的概率分布,其中,αi为各自注意力机制词向量的概率分布密度,Lx=||Source||表示文本分词序列的长度,Source表示文本分词序列;对各自注意力机制词向量的Value值进行加权求和,求和通过以下公式来计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学秦皇岛分校,未经东北大学秦皇岛分校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110082121.5/2.html,转载请声明来源钻瓜专利网。