[发明专利]一种基于注意力机制的序列标注联合抽取实体关系的方法在审

专利信息
申请号: 201811157788.1 申请日: 2018-09-30
公开(公告)号: CN109408812A 公开(公告)日: 2019-03-01
发明(设计)人: 刘博;张佳慧;史超 申请(专利权)人: 北京工业大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/35;G06K9/62;G06N3/04
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 注意力机制 序列标注 上下文信息 解码 记忆网络 实体关系 语句 标注 抽取 预处理 单字 编码阶段 词语转换 方向推算 实体标签 输入序列 向量表示 信息向量 过去的 输入层 隐藏层 分词 去噪 向后 语料 联合 携带 学习 引入 概率 中文
【权利要求书】:

1.一种基于注意力机制的序列标注联合抽取实体关系的方法,其特征在于:

该方法包括以下步骤:

步骤1、获取开放领域的实体关系数据集并进行预处理,预处理的过程是将该数据集分为训练集和测试集两部分,这两部分都包含待处理的语句,对其中包含的语句进行分词处理,使得语句转化为单独的词;

步骤2、将预处理后得到语句中的每个词经过嵌入层转换成向量表示,并输入到双向长短时记忆网络的编码层中进行编码;

步骤3、将编码层得到的输出经过带注意力机制的长短时记忆网络解码,并在其中加入注意力机制;

步骤4、经过softmax层基于标注预测向量输出实体标签化概率,补全和组合实体和关系,得到三元组。

2.根据权利要求1所述的一种基于注意力机制的序列标注联合抽取实体关系的方法,其特征在于:

步骤1具体包括以下步骤:

步骤1.1、获取开放领域的实体关系数据集,并对数据集中的所有数据进行去噪处理,包括去除无用空白字符、大写字母转换成小写;

步骤1.2、将数据集分成训练集和测试集;

步骤1.3、建立用户自定义词典,比如长词和专有名词,并利用哈工大自然语言处理工具LTP对语句进行分词。

3.根据权利要求1所述的一种基于注意力机制的序列标注联合抽取实体关系的方法,其特征在于:步骤2具体包括以下步骤:

步骤2.1、使用维基百科的语料训练Word2Vec词向量模型,词向量的维度为300;

步骤2.2、经过Word2Vec生成的词向量映射矩阵,获取每一个词对应的词向量,整个语句的词向量表示为{w1,w2,......wn},wn表示第n个词语的词向量表示;

步骤2.3、将嵌入层转换的词向量输入到双向LSTM编码层,它包含正向LSTM层,反向LSTM层和连接层;

步骤2.4、通过双向LSTM编码层对上下文信息和语义信息进行编码,正向LSTM从w1到wn,反向LSTM从wn到w1,并在神经元的隐藏层输出整个语句的编码向量,计算公式如式(1)(2)(3)(4)(5)(6)所示;

it=δ(Wwiwt+Whiht-1+Wcict-1+bi) (1)

ft=δ(Wwfwt+Whfht-1+Wcfct-1+bf) (2)

zt=tanh(Wwcwt+Whcht-1+bc) (3)

ct=ftct-1+itzt (4)

ot=δ(Wwowt+Whoht-1+Wcoct+bo) (5)

ht=ot tanh(ct) (6)

式(1)(2)(3)(5)的i、f、z、o分别为输入门、遗忘门、更新门、输出门,式(4)中的ct表示t时刻的细胞状态,(6)中的ht表示t时刻的输出,W表示相关参数,式(3)中的Wwc和Whc分别表示词的细胞状态的参数和输出的细胞状态的参数,式(1)(2)(5)中的Wwx、Whx和Wcx分别表示x门的词的参数,输出的参数和细胞状态的参数,wt表示第t个词,b表示偏置损失,δ表示sigmoid激活函数。

4.根据权利要求1所述的一种基于注意力机制的序列标注联合抽取实体关系的方法,其特征在于:步骤3具体包括以下步骤:

步骤3.1、将双向LSTM编码后的输出输入至LSTM解码;

步骤3.2、加入Attention机制,使模型学习上下文在实体中的位置和在关系中的角色,最终解码的结果由上一时刻预测的结果yt-1,这一时刻的输入st和与此时刻相关的上下文标注序列cseqt得到,计算公式如式(7)、(8)所示;

p(yt|y1,y2,......,yt-1,cseq)=g(yt-1,st,cseqt)(7)

式(8)中Lx表示语句的长度,aseqtj表示输入语句中第j个单词标注的注意力分配系数,hj表示第j个单词的语义编码,cseqt表示t时刻相关的上下文标注序列;

步骤3.3、输出解码后的序列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811157788.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top