[发明专利]一种基于词汇增强的事件抽取方法、装置及存储介质有效
申请号: | 202210195683.5 | 申请日: | 2022-03-02 |
公开(公告)号: | CN114330354B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 姜伟浩;张浩 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/211;G06F40/186;G06F16/35 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 310051 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词汇 增强 事件 抽取 方法 装置 存储 介质 | ||
本申请提供一种基于词汇增强的事件抽取方法、装置及存储介质,涉及自然语言处理技术领域,能够提高事件抽取系统的性能,从而提高事件抽取结果的准确性。该方法包括:获取文本信息中包括的事件类型;采用事件元素抽取模型,获取文本信息中每个句子的事件元素,其中,事件元素抽取模型中基于词汇增强模型对字符向量及词语向量进行上下文编码,词语向量是基于外部语料采用词向量模型获取,上下文编码采用相对位置编码;根据文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句;将每种事件类型的关键句的事件元素,分别填充至每种事件类型对应的事件记录模板中,得到每种事件类型的事件记录。
技术领域
本申请涉及自然语言处理技术领域,更具体地,涉及一种基于词汇增强的事件抽取方法、装置及存储介质。
背景技术
事件抽取是自然语言处理领域的重要任务之一。该任务是从文本中自动抽取事件信息,包括事件涉及的人物、机构、发生时间、发生地点、事件名称以及相应的事件描述等。
现有的事件抽取系统大多采用来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformer,BERT)对文本进行表征,由于BERT的通用性,BERT是对针对所有语言设计的,没有专门针对中文语料设计,无法利用中文语料中的词语信息和领域词典的实体信息,从而导致事件抽取的结果与理想的结果不同。
因此,如何提高事件抽取系统的性能,是业界丞待解决的问题。
发明内容
本申请提供一种基于词汇增强的事件抽取方法、装置及存储介质,能够提高事件抽取系统的性能,从而提高事件抽取结果的准确性。
第一方面,提供一种基于词汇增强的事件抽取方法,包括:获取文本信息中包含的事件类型,一个事件类型用于指示一个目标事件;采用事件元素抽取模型,获取文本信息中每个句子的事件元素;根据文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句;将每种事件类型的关键句的事件元素,分别填充至每种事件类型对应的事件记录模板中,得到每种事件类型的事件记录;其中,一个事件类型对应的事件记录模板用于记录该事件类型的关键句的事件元素。其中,事件元素抽取模型中基于词汇增强模型对字符向量及词语向量进行上下文编码,词语向量是基于外部语料采用词向量模型获取,上下文编码采用相对位置编码,一个事件类型对应的事件记录模板用于记录该事件类型的关键句的事件元素。
基于本申请提供的技术方案,至少可以产生以下有益效果:本申请通过事件元素抽取模型获取文本信息中每个句子包含的事件元素,根据文本信息中包含的事件类型获取每种事件类型对应的关键句,将每种事件类型对应的关键句的事件元素,填充至每种事件类型对应的事件记录模板中,就可以得到每种事件类型的事件记录。由于本申请中的事件元素抽取模型中融合了词汇增强模型,引入了中文词语信息,将字符向量和词语向量相结合,利用相对位置编码获取字符向量和词语向量之间的位置信息,提高了处理中文文本信息时抽取的事件元素的准确度,使事件抽取的结果更符合对于中文文本信息识别的实际需求,提高了事件抽取结果的准确性,从而提高了事件抽取系统的性能。同时增加了关键句识别步骤,当文本信息为篇章级文本时,通过获取文本信息中包含的每种事件类型对应的关键句,由于关键句可以体现每种事件类型包含的核心事件元素,可以仅根据事件类型对应的关键句获取事件类型对应的事件记录,无需从全部的文本信息中提取,将处理过程简单化,解决了篇章级文本事件抽取问题,从而进一步提高了事件抽取系统的性能。
可选的,当分类算法采用预设规则时,根据文本信息中每个句子的事件元素,采用分类算法分别获取每种事件类型的关键句,包括:获取每种事件类型的核心事件元素和其他事件元素;将文本信息中,满足第一事件类型的预设规则的句子,确定为第一事件类型的关键句,第一事件类型的预设规则包括:包含的第一事件类型的核心事件元素数量大于或等于第一阈值,且包含的全部事件元素的数量大于或等于第二阈值;第一事件类型为任一事件类型。通过采用预设规则,减少模型训练的过程,提高处理效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210195683.5/2.html,转载请声明来源钻瓜专利网。