[发明专利]基于复制机制的生物医学事件联合抽取方法有效

申请号：	201811291947.7	申请日：	2018-11-01
公开（公告）号：	CN109446326B	公开（公告）日：	2021-04-20
发明（设计）人：	李丽双;叶沛言;王子维;周安桥	申请（专利权）人：	大连理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36;G06F40/30;G06F40/289;G06K9/62
代理公司：	大连理工大学专利中心 21200	代理人：	温福雪;侯明远
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于复制机制的生物医学事件抽取方法，属于自然语言处理技术领域。基于复制机制的生物医学事件抽取方法步骤如下：构造模型输入向量；构造使用双向LSTM模型的Encoder模块；构造基于Attention机制和复制机制的同时识别触发词和要素的Decoder模块。使用本发明可以有效避免分阶段方法带来的级联错误和子任务之间相互独立的缺点，以及联合模型中单纯使用共享参数而导致的误差传递，提高生物医学事件抽取的性能。
搜索关键词：	基于复制机制生物医学事件联合抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于复制机制的生物医学事件联合抽取方法，其特征在于，步骤如下：(一)构建输入向量主要针对生物医学文本进行生物事件联合抽取；首先，需要对生物医学文本进行预处理，构成框架的输入；预处理包括以下步骤：(1)将获取到的语料库以及大规模生物医学背景语料共同送入word2vec中，训练得到每个词的词向量；(2)通过查找词表，获取语料中每个词的词向量，构成模型的输入；(二)使用的框架概述基于Attention机制的Encoder‑Decoder模型；Encoder模块负责对输入的句子进行编码，Decoder模块处理句子的编码向量和注意力向量，生成预测的触发词‑要素对；(三)Encoder模块利用BiLSTM模型中的双向传播机制获得句子中该词对应的上下文信息，从而得到更加全面和准确的语义表示，本模型中的Encoder模块采用BiLSTM模型来获得词语和句子对应的编码信息；具体公式如下：Encoder模块的输入：X代表输入模型的一个句子，xt代表句子中的第t个词，n代表句子的长度；X＝(x1,x2,…,xn)(1)Encoder模块第t步的输出为由正向LSTM第t步的输出和反向LSTM第t步的输出拼接而成；代表正向LSTM第t步输出；W_O、W_C、W_i、W_f分别代表对应的权重；b_o、b_C、b_i、b_f代表对应的偏置；是正向LSTM第t步的隐层状态，为随机初始化的参数，σ为激活函数；具体推导：的推导跟的推导相同，将输入X＝(x₁,x₂,…,x_n)反向，即X₁＝(x_n,x_n‑1,…,x₁)作为Encoder模块的输入；再经过(2)‑(7)的公式推导，即得到(四)Decoder模块本方法不区分预测的要素是触发词和触发词之间的关系还是触发词和实体之间的关系，统一默认为是触发词之间的关系；Decoder模块的输入是s、c_t、v_t；s为Encoder模块得到的句子编码向量，c_t为第t步的注意力向量，v_t是t‑1步预测的要素或触发词的词向量，和分别是Encoder模块第n步正向输出的隐层状态和反向输出的隐层状态，是Decoder模块第t步的隐层状态，其中是Encoder模块第t步的输出，是Decoder模块第t步的输出；f_a、f_h、f_k为激活函数，W_h、W_k、W_a、U_a、U_h为对应的权重，b_a、b_h、b_k为对应的偏置；s表示为：ct的公式推导如下：Decoder模块每一步的输出：ut＝[ct；vt](14)对于当t％3＝1(t＝1,4,7,…)时表示第t步识别出来的是要素；当t％3＝2(t＝2,5,8,…)时，表示识别出来的是第一个触发词；当t％3＝0(t＝3,6,9,…)时，表示识别出来的是第二个触发词；即每3步识别出来一个触发词和要素对，表示为：<要素，触发词1，触发词2>；(1)识别要素：设置一个结束标志，识别要素的过程中识别出该结束标志，则当前句子的识别结束；Wqr,UqNA为权重，bqr,bqNA为偏置，fqr、fqNA为激活函数；对进行(16‑19)的变换：q＝[qr；qNA](18)qa＝softmax(q)(19)qa中概率最大的维度对应的类别即为此次的触发词‑要素对中的要素类别；其中，q的维度为语料对应的要素类别数目加1；qNA是停止关系判别的标志，一旦识别出qNA，则不再继续识别当前句中的触发词‑要素对；(2)识别触发词1从句子的n个词中选出候选触发词作为触发词1；由于触发词1与输入的词向量相关，因此需加入输入的语义信息f_p，f_pNA为激活函数；W_p,U_pNA为权重，b_p,b_pNA为偏置；对和进行如下处理：p＝[pe；pNA](23)pa＝softmax(p)(24)pa的维度为n+1，其中前n个维度分别代表句子中的n个词，pNA为识别触发词的停止符；对p进行归一化后得到pa，选出pa中概率最大的维度对应的词作为触发词1；(3)识别触发词2选取句子中的词作为候选触发词2时，需要删掉已识别的触发词1；由于要素针对的是不同的触发词，为此，设置一个数组记录上一个步骤识别出的触发词位置i；完成步骤(2)中公式(20)‑(24)步骤后，对结果p进行归一化处理得到pa，使pa中第i个位置的数值置为0；然后选出pa中概率最大的维度对应的词作为触发词2。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811291947.7/，转载请声明来源钻瓜专利网。

上一篇：一种高正确率的自然语言分类器系统
下一篇：一种移动通信客户投诉的诊断方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于复制机制的生物医学事件联合抽取方法有效

专利文献下载