[发明专利]一种基于文档级别注意力机制的事件触发词抽取方法有效
申请号: | 201810572351.8 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108829801B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 王健;王安然;林鸿飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/284;G06N3/04 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文档 级别 注意力 机制 事件 触发 抽取 方法 | ||
本发明涉及一种事件触发词抽取方法,一种基于文档级别注意力机制的事件触发词抽取方法,包括以下步骤:(1)训练语料预处理,(2)使用PubMed数据库语料进行词向量训练,(3)构建样本的分布式表示方式,(4)构造基于BiLSTM‑Attention的特征表示方式,(5)使用CRF学习、获取当前文档序列的最优序列标注结果,(6)事件触发词的抽取。本发明方法具有以下优点:一是采用BIO标签标注方式,实现了包括对多词触发词的识别;二是针对触发词识别任务,构建了相应的单词和特征的分布式表示方式;三是提出了BiLSTM‑Attention模型,通过引入Attention机制,实现了针对当前输入的文档级别信息的分布式表达构造,提高触发词识别效果。
技术领域
本发明涉及一种事件触发词抽取方法,更具体的说,涉及一种基于文档级别注意力机制的事件触发词抽取方法。
背景技术
事件抽取作为信息抽取的一种形式,旨在从自然语言文本中抽取结构化的事件信息。一个事件通常是由一个触发词或词组(Trigger)以及若干个事件元素(Argument)组成。触发词通常为动词或带有动词性质的名词,用来表示事件的类型。然后围绕着触发词,识别事件的参与元素,即事件元素。触发词识别作为事件抽取的关键步骤,识别性能的好坏直接决定了事件抽取的准确性。
以往的方法多把触发词识别当作多分类任务,通过对文本当中的候选词构造特征表示,对其进行分类。特征表示的方法主要为两大类:特征工程构造和神经网络生成。特征工程构造方法是基于自然语言处理工具,如:句法分析器,根据任务人为抽取文本中的信息,构造样本表示的特征。神经网络生成方法是指仅通过对样本的上下文进行神经网络操作,进行表示学习。相比于传统的特征工程构造方法,神经网络方法可以有效避免了繁杂的人为抽取特征工作,并且缩小了特征表示的维度,避免了特征表示的维度灾难。另一方面,神经网络方法可以有效地结合词向量(word embedding)信息,避免了传统One-hot词汇表示方法的语义鸿沟。
但是触发词不仅仅是单词,也有词组构成的触发词,如:play a key role。如果仅对文本中的每个单词进行分类的话,并不能够识别这种多词所构造的触发词。对于多词组成的触发词,如果使用n-gram的方法构造候选样本,会出现正负样本严重不平衡的问题,增大了模型的训练难度;如果使用句法分析器构造多词候选集,则对句法分析器截取的词汇段的准确程度有着较高要求,而且这种方法的灵活程度不高。
另一方面,以往的触发词识别方法多是以句子为单位,根据候选单词所在的句子信息判别候选单词的类别。然而,一篇文档所涉及到的事件往往是有关联的,存在着文档之中事件类型聚集的现象。有方法采用主题模型来引入篇章级别特征,但是对于相同文档的候选词来说,这种篇章级别特征对相同文档的候选触发词并不具有特殊性,不能有针对地获取当前候选词所关注的篇章级别信息。
发明内容
为了克服现有技术中存在的不足,本发明提供了一种基于文档级别注意力机制的事件触发词抽取方法。该方法利用双向LSTM网络来实现针对样本的特征构建,并通过注意力(Attention)机制有效地融合文档级别的特征,最后通过条件随机场(ConditionalRandom Field,CRF)学习BIO标签之间的相关性,最终对当前候选词进行标注,完成对文本中触发词的抽取。
为了实现上述发明目的,解决现有技术中所存在的问题,本发明采取的技术方案是:一种基于文档级别注意力机制的事件触发词抽取方法,包括以下步骤:
步骤1、训练语料预处理,使用的训练语料选自MLEE即Multi-Level EventExtraction,并对训练语料进行BIO标签标注,该训练语料为每个文档提供三个文件,即原始文本文件、实体标注文件及事件标注文件,其中事件标注文件中分别标注出事件触发词以及由事件触发词和实体组成的事件,标注方法为对每一个文档中的词,使用添加实体或触发词类型的BIO标签对实体和触发词进行标注,具体包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810572351.8/2.html,转载请声明来源钻瓜专利网。