[发明专利]一种基于注意力引导图LSTM关系提取方法及装置有效
申请号: | 202110777501.0 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113505240B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 刘露;李春磊;彭涛;包铁 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/211;G06F40/284;G06N3/0442;G06N3/048;G06N3/082 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 130000 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 引导 lstm 关系 提取 方法 装置 | ||
本发明公开了一种基于注意力引导图LSTM关系提取方法及装置,该方法包括:将需要进行关系抽取的文本进行预处理操作,得到原始邻接矩阵和包含上下文信息的词向量;将原始邻接矩阵转换成完全连通的边加权图邻接矩阵;将完全连通的边加权图邻接矩阵和包含上下文信息的词向量,输入图结构LSTM神经网络模型中,进行循环状态转换,得到实体隐藏状态数据;将实体隐藏状态数据输入逻辑回归分类器,输出待关系抽取文本的关系类别标签。首先,该提取方法保持了原始图结构,不会丢失任何相关信息。其次,通过将信息从父级上传下移,可以轻松的合并同级信息。最后,信息交换允许更多并行化执行,可以有效地提升计算速率。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于注意力引导图LSTM关系提取方法及装置。
背景技术
现有关系抽取相关模型主要被分成基于序列以及基于依存关系这两种模型。当关系抽取模型是基于序列时是指该模型只是在单词序列上运行,使用卷积神经网络或循环神经网络把句子文本序列转化编码成为带有语境化或者上下文信息的特征。基于依存关系的模型的主要思想是将句子文本生成的依存树应用到模型中,依存树可以更好的表达句子中单词之间的句法依存关系,模型对其学习也能获取到更优的句子分布式表示。依存句法首先被提出是为了通过构建树形结构来描述出词语间存在的依存关系。
在当下的研究中,依存句法分析在自然语言处理领域可谓是用处颇广,它的主要作用是分析输入文本的句法结构,获取到与之对应的依存关系结构树。由于通过依存树获得的关键词的距离比直接进行处理的关键词的物理距离近的多,因此依存句法结构树在自然语言领域中起到了至关重要的作用。经过研究发现,基于序列的模型往往无法从词向量序列中获取到长期的句法关系,同时这些句法关系仅从表面形式是难以理解的,因而基于依存关系的模型在性能表现上通常会更加优异。然而,一整棵依存结构树中总是包含着一些对关系抽取任务无用的信息,那么如何屏蔽掉这些无关信息,很多研究者都为此提出了基于规则的剪枝策略。应用这种基于规则的硬性剪枝策略对依存树进行修剪,会产生更符合要求的子树结构,在将深度学习神经网络应用到上述产生的子树结构上,获取到句子文本中给定实体对之间的关系类别标签。
上述这种基于规则的剪枝策略会直接对依存树直接进行的硬性剪枝操作。虽然这种类似于一刀切的剪枝策略可以很好的获取到于关系抽取任务有效的子树结构,但也无法避免的会剪去一些有用的相关信息。这些被剪掉的句法信息只是因为不在规则中,其权重部分就被赋值为0,去除了其全部的作用,这样做会在一定程度上降低对依存树中的句法信息的利用率,对最后的关系抽取结果产生影响。
现有对关系抽取任务的研究大多集中在单个句子的2元关系,虽然取得了足够优秀的成果,但单个句子有时无法提供丰富的歧义语境,导致在一些例如生物医药等高价值领域的表现不够出色。
图结构LSTM的文档图是由包含依存边和相邻单词之间的连接的输入句子构造而成的。要计算每个单词的隐藏状态编码,需要将文档图划分为两个有向无环图(DAG),一个有项无环图(DAG)包含从左到右的线性链,以及其前向依存关系。另一个有项无环图(DAG)包含从右到左的线性链,以及其向后的依存关系。然后,两个独立的LSTM分别用于每个单向DAG。最后,对于每个单词,把两个方向的隐藏状态进行连接就可以得到最终状态。
但是,双向DAG LSTM模型有几个局限性。首先,转换图形时可能因为将文档图划分为两个独立的有向无环图(DAG)而丢失重要信息。其次,在两个DAG上都使用LSTM,仅可以为每个单词合并其祖先和后代的信息。兄弟信息也可能很重要,但其并不包括在内。解决上述问题的一种潜在解决方案是对整个图进行建模,学习其表示而不将其分成两个DAG。但由于存在循环,Tree-LSTM的扩展无法实现此目标。
因此,在现有的关系抽取模型和图结构LSTM的基础上,如何提供一种基于依存树的注意引导图LSTM模型,以在有效利用依存树中句法关系的同时又可以忽略其中无用的信息,成为本领域技术人员亟需解决的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110777501.0/2.html,转载请声明来源钻瓜专利网。