[发明专利]一种基于正则约束的图神经网络文本分类方法在审
申请号: | 202210532864.2 | 申请日: | 2022-05-11 |
公开(公告)号: | CN114896400A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 甘玲;刘菊;胡柳慧 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 方钟苑 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 正则 约束 神经网络 文本 分类 方法 | ||
本发明涉及一种基于正则约束的图神经网络文本分类方法,属于自然语言处理领域,包括以下步骤:构图:采用TextING的构图方法构图,添加语义边和语法边,并定义不同边的类型,初始化边类型特征Ec,输入图神经网络中进行训练;基于图神经网络进行单词交互:采用带多样正则约束的GAT为邻域结点分配不同注意力权重来过滤边噪声信息,引导注意力分数分布减少重叠;文本表示:通过最大池化和平均池化将单词结点特征聚合为篇章表示,根据篇章表示获得文本的分类结果,并定义损失函数来约束结点特征的更新过程。本发明丰富了单词间语法语义相关性,提高了长距离和非连续的单词交互能力,提高了模型表达能力。
技术领域
本发明属于自然语言处理领域,涉及一种基于正则约束的图神经网络文本分类方法。
背景技术
文本分类是大多数自然语言处理任务最基础的技术支撑,在信息爆炸的背景下对文字资源进行手工管理、分类等操作工作量巨大,采用深度学习进行文本分类可以实现对海量文本信息高效快速管理,提高信息检索效率。
文本分类的关键在于挖掘文本上下文信息得到准确的语义表示。以TextCNN和TextRNN为代表的神经网络虽然能快速高效挖掘文本语义,但它们缺乏长距离和非连续的单词交互。最近,图神经网络被提出来解决这一问题,图卷积网络(Graph ConvolutionNetworks,GCN)和图注意力网络(Graph Attention Networks,GAT)遵循邻域聚合的范式,能够对文本的序列结构和句法结构进行建模,灵活捕获文本中单词、句子、篇章间的关系。例如,TextGCN构建了一个语料库级别的文本图,采用GCN将文本分类任务转化半监督结点分类任务;在此基础上,Text-Level GNN引入消息传递机制减少TextGCN的内存消耗。但这些转导学习(Transductive Learning)的方法计算效率低,TextING和HyperGAT为每个文本构建单独的文本图,使用GNN捕获单词高阶上下文信息,都能有效进行归纳学习(Inductivelearning)。此后,DADGNN通过扩散机制和解耦GNN的传播过程有效扩大结点的感受野。
现有的文本分类方法存在以下不足:(1)边类型单一,单词仅依赖其邻居更新语义表示,缺乏文本语法、语义相关信息,此外,不同边类型存在丰富的信息,但它们在当前大多模型中未被充分利用,缺失的边信息很可能对文本整体倾向性产生巨大影响。(2)忽略了图结构中的来自结点和边的噪声对网络的干扰,此外,随着图结构迭代次数的增加,噪声信息成倍扩大使分类性能急剧下降。
发明内容
有鉴于此,本发明的目的在于提供一种基于正则约束的图神经网络文本分类方法,解决基于图结构的文本分类模型存在的边类型单一和噪声干扰导致文本分类性能不足的问题。
为达到上述目的,本发明提供如下技术方案:
一种基于正则约束的图神经网络文本分类方法,包括以下步骤:
构图:采用TextING的构图方法构图,添加语义边和语法边,并定义不同边的类型,初始化边类型特征Ec,输入图神经网络中进行训练;
基于图神经网络进行单词交互:采用带多样正则约束的GAT为邻域结点分配不同注意力权重来过滤边噪声信息,引导注意力分数分布减少重叠;
文本表示:通过最大池化和平均池化将单词结点特征聚合为篇章表示,根据篇章表示获得文本的分类结果,并定义损失函数来约束结点特征的更新过程。
进一步,在所述构图中,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210532864.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高值化的肉牛饲料及其制备方法
- 下一篇:一种用于导盲设备的远程报警系统