[发明专利]一种基于多头自注意力机制的多任务篇章级事件抽取方法有效

专利信息
申请号: 202110953670.5 申请日: 2021-08-19
公开(公告)号: CN113761936B 公开(公告)日: 2023-04-07
发明(设计)人: 丁建睿;吴明瑞;丁卓;张立斌 申请(专利权)人: 哈尔滨工业大学(威海);长江时代通信股份有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F16/35;G06F40/117;G06N3/047;G06N3/0464;G06N3/048;G06N3/08
代理公司: 苏州中合知识产权代理事务所(普通合伙) 32266 代理人: 阮梅
地址: 264200*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多头 注意力 机制 任务 篇章 事件 抽取 方法
【说明书】:

发明提供一种基于多头自注意力机制的多任务篇章级事件抽取方法,包括如下步骤:将单一句子级事件抽取转换为打包句子集合的篇章级事件抽取;利用预训练的语言模型BERT模型进行词嵌入表示;对单句中所有单词嵌入和位置嵌入作为输入,利用卷积神经网络模型进行编码,结合分段最大池策略捕获句子内部的最有价值的特征;利用多头自注意力模型,获得融合全文语义信息的篇章表示和注意力权重;利用分类器得到预测的事件类型;利用事件类型作为先验信息,链接到事件元素提取的输入序列中,利用预训练模型结合机器阅读理解方法提取序列中所有相关元素。本发明可用于篇章级事件抽取任务,实现了将序列标注问题转换为机器阅读理解问题的突破。

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种基于多头自注意力机制的多任务篇章级事件抽取方法。

背景技术

当今时代数据信息呈几何级别爆炸式增长,依托互联网技术的发展,每时每刻都有大量的数据产生,新闻数据的迅猛增加,娱乐数据的急剧增多,广告数据的飞速攀升,科技数据的剧猛增长……现如今,我们已全面进入大数据时代。如此众多的数据信息,形式多样,错综复杂,难以挖掘和处理,难以利用和分析。为了从新闻数据中提取出更多有价值的信息,关键的就是对新闻文本中包含的实体,关系以及事件进行抽取,对他们之间的作用关系进行分析和预测,以将提取的信息展现的更加系统化规范化。当前已知的知识资源(例如,维基百科等),其所描述的实体及实体之间存在的关系绝大多数都是静态的,而事件更能描述动态的知识。事件,作为信息的表现形式之一,主要描述特定时间、地点、人和物相互作用的客观事实。事件抽取主要是从描述事件信息的文本中抽取出什么人,什么时间,在什么地点,做了什么事,以更加结构化的方式呈现出来。事件抽取作为一种主流的自然语言处理任务,包括一系列的抽取任务,如:事件触发词的发现,事件类型的识别,事件论元以及论元角色的提取。相比于关系抽取任务,事件抽取同样需要从文本中抽取出元素和参数,但与关系抽取不同的是,关系抽取的元素和参数大都存在于同一个句子中,而事件抽取的难点在于,同一个事件会有多个参数和事件触发词,可能分布在多个句子中,而且有些参数还可能不是必需的,这些都加大了事件抽取的难度。目前的事件抽取主要分为句子级别的抽取和篇章级别的事件抽取。事件抽取的第一步即是事件触发词的发现。事件触发词就是最能体现事件发生的动词或者名词。句子级别的事件抽取主要考虑从同一个句子中抽取出一个或者多个事件触发词,进而通过对事件触发词进行分类,从而找到该事件所属的类别。然而句子级别的事件抽取忽略了不同句子间的相互关系,忽略了事件元素和论元可能存在于不同句子中的情况。因此,如何高效地进行篇章级的事件抽取具有重要的研究价值。

目前的事件抽取方法主要包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等,涉及模式匹配,机器学习,深度学习等众多方法。这些方法在事件抽取领域取得了巨大的成功,其中预训练语言模型的出现使得事件抽取能力得到了进一步的提升。基于预训练模型的句子级事件抽取模型能捕捉到同一句子中不同单词上下文相关的双向特征表示,多头自注意力机制通过attentionmask动态编码变长序列,解决了长距离依赖问题,但是基于预训练模型BERT的语言模型,没有考虑mask之间的相关性,是对语言模型联合概率的有偏估计,而且输入噪声mask会造成预训练和微调两阶段之间的差异,并且只适合于句子和段落级别的任务。

发明内容

本发明为解决现有事件抽取技术大多停留在单句子事件抽取阶段,无法跨子句捕捉细节特征,且没有充分考虑篇章中上下文的相互关系,基于预训练模型的事件抽取只适用于句子和段落之间的任务等问题,提供了一种基于多头自注意力机制的多任务篇章级事件抽取方法,解决了现有句子级别的事件抽取大多停留在单据单一事件抽取,忽略了句内多触发词,忽略了不同句子间的相互关系,忽略了事件元素和论元可能存在于不同句子中的情况,实现了将序列标注问题转换为机器阅读理解问题的突破。本发明可用于篇章级事件抽取任务。

一种基于多头自注意力机制的多任务篇章级事件抽取方法,具体包括如下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);长江时代通信股份有限公司,未经哈尔滨工业大学(威海);长江时代通信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110953670.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top