[发明专利]一种基于问答式系统的篇章级核心事件抽取方法在审
申请号: | 202111133607.3 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113836269A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 王继民;韩斌;王飞 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 问答式 系统 篇章 核心 事件 抽取 方法 | ||
本发明公开了一种基于问答系统的篇章级核心事件抽取方法,包括如下步骤:使用现有的BiLSTM‑CRF模型对文章进行事件检测,设计问题模板构建问答系统的先验问题;跨句子构造待抽取文本,将触发词来源的事件句子和文档中的其余句子结合,以产生多个待抽取文本;构造问题,将问题与文本组合起来,从文本中找出问题的答案;基于BERT预训练模型和双向LSTM模型的问答系统对文档内事件元素进行提取;对事件进行共指融合,使用TextRank算法对同个文档内多个事件的重要性进行排序,从多个事件中选取核心事件。本发明通过基于问答系统的篇章级事件抽取方法可以提取出分布在不同句子中的事件元素,可以从多事件、无标题的文本中提取出核心事件,提高了核心事件抽取的效果。
技术领域
本发明涉及信息处理方法,特别涉及一种基于问答式系统的篇章级核心事件抽取方法。
背景技术
篇章核心事件抽取主要从整篇文档中提取出相应的事件元素,并从多个事件中找出核心事件。其中,核心事件抽取是在一篇文档多个事件中找出一个或多个表达文档中心的事件。存在的难点在于:事件元素分布在不同句子及如何从多个事件中选取核心事件。如下描述存在的难点及方法存在的局限和问题:
(1)事件元素分布在文档不同句子。目前,多数事件抽取技术是在句子范围内进行研究,从单个句子中找出事件触发词及其事件元素,而现实生活中,往往事件触发词和事件元素分布在文档不同句子中,只在句子范围内进行事件元素抽取会导致事件元素提取不完整。
同篇文本中可能存在多个相似事件或多次描述相同事件,这些多个事件之间元素可能存在互补关系,针对这个特点,现有的方法大多是先对每个事件句子抽取出触发词及事件元素,然后抽取结果中多个相同或相似的事件进行融合,从而获得一个完整的事件信息。虽然通过多个事件进行融合可以对事件进行事件元素补充,但如果事件元素不在事件句子中,那么无法对事件元素进行补充。
(2)文档核心事件选择。篇章级事件抽取应以文本中描述的主要事件为中心,用简洁、结构化的形式呈现给用户。目前核心事件研究方法存在两种:1) 从文档中找出最能表达该文档核心的一个中心句,然后基于这个中心句周围的句子进行事件元素补充。这种方法的缺点在于如果文档中多句存在重要事件,那么单个中心句范围太小。一些方法使用TextRank算法从新闻报道中先抽取出几个关键句子,然后基于这些关键句子提取出事件。关键句虽能较好的概括文本,但关键句不等同于事件句子,关键句子中可能会遗失一些事件句。2)找出文本中所有事件,然后根据所有和文档标题一致的事件作为文档的核心事件。这种方法限定每篇文档都含有标题并且标题能够代表文本主旨,类似新闻报道文本。
发明内容
发明目的:针对现有技术存在的问题,本发明提供一种基于问答系统的抽取篇章级核心技术的方法,来克服事件元素分布在不同句子的问题和文档核心事件选取的问题。
技术方案:一种基于问答式系统的篇章级核心事件抽取方法,包括以下步骤:
(1)通过BiLSTM-CRF模型对文章进行事件检测,抽取得到文档内事件触发词及对应的类型;
(2)设计不同问题的模板,并生成带有先验信息的问题;
(3)跨句子构造待抽取文本,将触发词来源的事件句子和文档中的其余句子结合,以产生多个待抽取文本;
(4)构造问题,将问题与文本组合起来,从待抽取文本中找出问题的答案;
(5)基于BERT预训练模型和双向LSTM模型的问答系统提取文档内事件触发词对应的事件元素,将每个事件触发词及该触发词对应的事件元素以“(触发词,事件元素)”的格式保存,进而得到文章所有事件触发词以及对应事件元素结果的集合;
(6)对步骤(5)保存的集合进行事件共指融合:对事件触发词和事件元素以补全方式进行融合,即相同事件类型的不同事件触发词、事件元素都保留,相同的触发词、事件元素仅保留一个;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111133607.3/2.html,转载请声明来源钻瓜专利网。