[发明专利]一种实体关系联合抽取方法及系统有效
| 申请号: | 201911308937.4 | 申请日: | 2019-12-18 |
| 公开(公告)号: | CN111160008B | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 蔡毅;陈峰 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 裴磊磊 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 实体 关系 联合 抽取 方法 系统 | ||
1.一种实体关系联合抽取方法,其特征在于,包括步骤:
对输入句子进行数据预处理;
将输入句子中的每个词映射成对应的词向量;
将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练,包括:
将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态;
将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示;
通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示,包括:
通过全连接层结合上下文特征和区域特征:
新建可学习的门向量gt,用来选择上下文特征和区域特征:
表示第t个词的隐藏层状态,每个词对应的向量表示为
通过门向量来控制上下文特征和区域特征的流动,得到每个词最终的向量表示:
将得到的每个词最终的向量表示经过全连接层将向量维度映射为实体标签大小,然后经过条件随机场得到每个词的各类实体标签概率;
将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型;
将命名实体识别的交叉熵损失与关系抽取的交叉熵损失相加作为整个模型的最终损失函数,最小化最终损失函数;
通过反向传播算法训练模型,更新模型中的所有参数;
采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括实体标注、单词映射、图的构造;
所述实体标注采用BIO标注机制进行标注,每个实体包含有一个或多个单词,为每个单词打上标签;
所述单词映射表示将输入句子中的每个单词映射成对应的ID;
所述图的构造通过依存解析器为输入句子构造一棵依存树,再采用邻接矩阵表示该依存树。
3.根据权利要求1所述的方法,其特征在于,所述将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态的步骤中,通过在时间步t时拼接前向和后向的隐藏层状态得到每个单词的双向信息,双向LSTM在时间步t的输出可以用如下的公式表示:
4.根据权利要求1所述的方法,其特征在于,所述将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示的步骤中,每个词对应的向量表示为具体计算公式如下:
其中,(g)表示GCN的参数,表示第t个词的隐藏层状态,σ表示非线性函数包括但不限于tanh函数和relu函数,和分别表示出入方向的邻接矩阵,表示向量拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911308937.4/1.html,转载请声明来源钻瓜专利网。





