[发明专利]一种基于问答式系统的篇章级核心事件抽取方法在审
申请号: | 202111133607.3 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113836269A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 王继民;韩斌;王飞 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 问答式 系统 篇章 核心 事件 抽取 方法 | ||
1.一种基于问答式系统的篇章级核心事件抽取方法,其特征在于,包括以下步骤:
(1)通过BiLSTM-CRF模型对文章进行事件检测,抽取得到文档内事件触发词及对应的类型;
(2)设计不同问题的模板,并生成带有先验信息的问题;
(3)跨句子构造待抽取文本,将触发词来源的事件句子和文档中的其余句子结合,以产生多个待抽取文本;
(4)构造问题,将问题与文本组合起来,从待抽取文本中找出问题的答案;
(5)基于BERT预训练模型和双向LSTM模型的问答系统提取文档内事件触发词对应的事件元素,将每个事件触发词及该触发词对应的事件元素以“(触发词,事件元素)”的格式保存,进而得到文章所有事件触发词以及对应事件元素结果的集合;
(6)对步骤(5)保存的集合进行事件共指融合:对事件触发词和事件元素以补全方式进行融合,即相同事件类型的不同事件触发词、事件元素都保留,相同的触发词、事件元素仅保留一个;
(7)使用TextRank算法对同个文档内多个事件的重要性进行排序,选取核心事件。
2.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(1)中对篇章进行事件检测时流程如下:
将要抽取的文章按照“。!?”进行句子切分,并使用BERT模型对句子进行编码,然后通过BiLSTM-CRF模型对文章所有句子进行事件检测,得到所有事件触发词以及其对应的类型。
3.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(2)中构建先验问题时,定义如下三种问题模板:
模板1:直接使用事件元素角色作为问答系统中的问题;
表示方式如下:
“[事件元素角色]”
模板2:根据事件元素角色的类型使用不同的问题;
表示方式如下:
“[事件元素角色]是[谁/什么]?”
模板3:事件触发词信息;
表示方式如下:
“触发词是[触发词],[事件元素角色]是[谁/什么]?”。
4.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(3)中跨句子构造待抽取文本的具体方式如下:
将一篇文本分为n句话,从这些句子里找到一句触发来源句,将该触发来源句与其他句子分别进行组合拼接,最终得到n-1个待抽取文本。
5.根据权利要求2所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(4)中将问题与文本组合的具体方式如下:
一个触发词需要多个事件元素角色,为每个事件元素角色构造一个问题,每个问题与步骤(3)产生的n-1个待抽取文本进行组合,从这些文本中找出问题的答案。
6.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(5)中提取文档内事件元素的具体方式如下:
(5.1)基于BERT预训练模型进行微调来处理阅读理解和问答任务;在BERT预训练模型后添加双向LSTM层用于捕获文本序列上下文特征;
(5.2)对每个字进行二分类判断其是事件元素的开始还是结束。
7.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(6)中对事件进行共指融合的具体方式如下:
根据事件之间的触发词和类型来判断两个事件是否为同类事件,用补全的方式融合触发词和事件元素角色,保留相同角色的不同元素。
8.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(7)中选取核心事件的具体方式如下:
通过TextRank算法计算出文档内保留词的重要性得分,然后根据每个事件的触发词和其事件元素词计算出每个事件的重要性得分,选取重要性最高的前N个事件作为核心事件。
9.根据权利要求8所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,通过TextRank算法计算出文档内保留词的重要性得分的具体步骤如下:
S1:以“。?!”三个字符对文本切分,得到多个句子;
S2:对于每个句子,进行分词和词性标注,过滤停用词,只保留名词、动词和形容词作为候选词;
S3:构建候选关键词图G=(V,E),其中V为节点集合,由S2产生的候选词组成,E是节点的边集合;通过TextRank算法判断两个词之间是否存在连接的方法是:查看某个词是否在当前节点长度为K的窗口中,如果在当前节点的窗口中,则该词与当前节点的候选词存在连接;反之该词与当前节点的候选词不存在连接;
S4:采用如下公式不断迭代,直至收敛:
其中,WS(Vi)是节点Vi在一轮迭代后的节点权重值,初始值为1;d为阻尼系数,默认为0.85;In(Vi)表示指向节点Vi的集合,out(Vj)表示节点Vj指出的集合,表示节点i链接到节点j的权重占节点j指向所有链接的权重之和的比例;
TextRank算法计算出保留词的得分,假设一个事件为{c1,c2,...,cn},ci表示第i个词,采用如下公式计算每个事件重要性得分:
其中,WSci为事件中ci的重要性得分,若ci不存在保留词中,则得分为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111133607.3/1.html,转载请声明来源钻瓜专利网。