[发明专利]基于注意力循环门控图卷积网络的关系提取方法及系统在审
| 申请号: | 202010850462.8 | 申请日: | 2020-08-21 |
| 公开(公告)号: | CN111985245A | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 钱雪忠;王晓霞 | 申请(专利权)人: | 江南大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 张荣 |
| 地址: | 214122 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 循环 门控 图卷 网络 关系 提取 方法 系统 | ||
本发明涉及一种基于注意力循环门控图卷积网络的关系提取方法及系统,包括对语句进行语义依存分析,将单词嵌入与位置特征相连接,得到最终的单词嵌入表示;构建BLSTM网络层,提取单词上下文特征向量;对所述依赖树应用注意力机制,得到带有权重信息的全连通图的软邻接矩阵;将所述单词上下文特征向量和软邻接矩阵传入门控图卷积网络中,提取高阶语义依赖特征,得到语句的向量表示;将两个标记实体的向量表示抽取出来并与所述语句的向量表示拼接,传入所述门控图卷积网络的全连接层中,计算每个关系类型的概率以及预测关系类别,最终得到语句的关系类别。本发明避免了关键信息丢失,实现对关系提取性能的提升实现对关系提取性能的提升。
技术领域
本发明涉及自然语言处理关系提取的技术领域,尤其是指一种基于注意力循环门控图卷积网络(Attention Recurrent Gating Graph Convolutional Network,简称Att-RGate-GCN)的关系提取方法及系统。
背景技术
关系提取是自然语言处理领域的一项重要子任务,是对非结构化文本进行大规模关系理解应用的基石,它在信息抽取、问答系统和知识图谱等领域有着广泛应用。随着大数据时代的到来,处理爆炸性数据的能力要求越来越高,正确理解句子中存在的关系越来越重要。关系提取是根据预先定义的关系类型来识别文本中俩实体之间的语义关系。例如,″The train<e1>crash</e1>was caused by terrorist<e2>attack</e2>.″,根据给定的句子以及标记的两个实体判定‘crash’与‘attack’之间的关系为Cause-Effect(e1,e2)。
最初的关系提取方法主要是基于特征和基于核函数的方法,分别基于选择合适的特征集和设计合适的核函数。随着神经网络被广泛应用于各项研究,卷积神经网络(Convolutional Neural Network,简称CNN)以及循环神经网络(Recurrent NeuralNetwork,简称RNN)也被广泛应用于关系提取任务中,通过CNN提取局部n-gram特征,RNN提取句子中的长距离依赖特征,从而实现句子的特征向量表示,并通过全连接层softmax分类器得到最终提取的关系类型。为了充分理解句子语义结构,引入句子依存分析的依赖树结构,通过依赖树提取更有效的句子高阶语义信息。
随着图网络在各领域的发展,图卷积网络被越来越多研究者应用于自然语言处理任务中。图卷积网络通过对图进行建模,利用词的共现信息建立词节点之间的边缘,捕获高阶邻域信息。在图卷积过程中,对转换成图结构的依赖树进行建模,将每个节点的邻域信息编码为特征向量,在图中所有位置共享滤波器参数。GCN中的卷积运算与CNN中的相似之处在于模型在输入结构中共享参数。在每一层中,每个节点从其邻接节点汇聚特征信息。
但是,如果单纯利用图卷积网络提取依赖树中的特征,会导致忽视句子中的非局部长距离依赖特征。一是因为依赖树没有得到充分利用,二是因为图卷积网络在网络层数较深的时候会导致关键信息的丢失。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中依赖树没有得到充分利用,且关键信息会丢失的问题,从而提供一种充分利用依赖树并充分提取依赖树中的特征,避免关键信息丢失的基于注意力循环门控图卷积网络的关系提取方法及系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010850462.8/2.html,转载请声明来源钻瓜专利网。





