[发明专利]一种基于主题特征和隐式句子结构的事件抽取方法在审

专利信息
申请号: 202111178364.5 申请日: 2021-10-09
公开(公告)号: CN113901813A 公开(公告)日: 2022-01-07
发明(设计)人: 黄婉华;漆桂林;高桓 申请(专利权)人: 东南大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30
代理公司: 南京众联专利代理有限公司 32206 代理人: 杜静静
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 特征 句子 结构 事件 抽取 方法
【说明书】:

发明公开了一种基于主题特征和隐式句子结构的事件抽取方法,主要用于把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘、自动问答、信息检索等领域有着广泛的应用。本发明首先通过结合BERT和LDA获得文档的主题特征为句子级的事件抽取模型引入文档级的主题信息;其次抽取出BERT词嵌入表示中隐含的句法信息,并将该抽取过程与事件抽取进行联合建模,在避免了错误累积问题的同时为事件抽取引入重要的句法信息;最后模型使用基于Bi‑LSTM和级联式CRF的序列标注方法抽取单句中的多个触发词以及抽取实体在多个事件中的元素角色。

技术领域

本发明属于信息抽取领域,涉及一种基于主题特征和隐式句子结构的事件抽取方法。

背景技术

随着互联网的发展和普及,每天都有数以百万计的数据源以新闻文章、博客、论文等形式发布,越来越多的经验知识存储于文档中,而由于传统的知识存储方式带来了检索效率低下的问题,如何管理并且利用这些数据逐渐成为自然语言处理领域的核心问题。随着调查和研究发现,结构化的存储方式可以有效地提高人们检索和收集经验知识的能力。为了让机器更好地理解人类语言,信息抽取任务所研究的自动组织和处理数据的技术变得不可或缺。信息抽取任务的基本目标是自动地从非结构化或者半结构化的机器可读文档以及其他电子表示的来源中提取信息并存储为结构化的形式,以实现对互联网上海量文本信息的组织、管理以及分析。

事件抽取是信息抽取的核心任务之一,它的主要目标是从非结构化文本中抽取出结构化的事件信息,对于信息检索、事理图谱的构造有重要作用。现有的事件抽取方法大致可以分为管道方法和联合方法。管道方法存在错误累积的问题,近期的大部分工作都采用联合方法进行事件抽取。然而大多数句子级的事件抽取联合方法缺少文本的整体信息以致无法很好地处理触发词的二义性问题,而文档级的联合方法存在建模复杂的问题;另外,由于事件触发词和事件元素在句子中的关系紧密,事件抽取任务十分依赖句法特征,然而只有少数方法在事件抽取中引入句法信息,但是这些依赖预训练工具的句法分析仍会对事件抽取造成错误累积;并且在相关数据集和现实应用中,句子中包含多个事件或者事件元素重叠的情况十分常见,但多数方法只考虑单事件和单元素角色,丢失了大量的事件信息。

为了改善上述问题,本发明提出一个基于主题特征和隐式句子结构的事件抽取联合方法。该方法首先通过结合BERT和LDA为句子级的事件抽取模型引入文档级的主题信息改善了触发词的二义性问题;其次抽取出BERT词嵌入表示中隐含的句法信息,并将该抽取过程与事件抽取进行联合建模,不仅为事件抽取引入重要的句法信息,同时也避免了错误累积问题;最后模型能够抽取单句中的多个触发词以及抽取实体在多个事件中的元素角色,改善多事件和事件元素重叠的问题。受益于引入主题特征和隐式句法特征以及联合建模的优势,所以构造一种基于主题特征和隐式句子结构的事件抽取方法,该方法在避免错误累积问题的同时引入主题特征和隐式句子结构信息,能够有效提高事件抽取的质量,有着非常大的研究意义。

发明内容

本发明提供一种事件抽取联合方法:对于触发词存在的二义性问题,一方面基于句子本身的表示获取其语义结构信息,另一方面通过主题建模获得主题分布表示,为事件抽取引入文档的整体上下文信息,以达到触发词消歧的作用;对于引入句法特征可能导致的错误累积问题,研究抽取BERT词嵌入中隐含的句子结构信息的方法,并与事件抽取建立联合模型,在引入句法信息的同时避免错误累积的影响;对于多事件和事件元素重叠的问题,本发明模型能够在单个句子中识别多个事件以及判定一个候选实体在多个事件中扮演的元素角色。通过这些方法能够完成对上述挑战的改善以提高事件抽取的效果。

本发明利用预训练语言模型BERT进行隐式句子结构特征抽取并将其应用于和事件抽取的子任务进行联合抽取的过程。首先抽取BERT结果中隐含的句子结构信息;然后利用CRF模型级联地进行事件触发词抽取;接着利用Bi-LSTM模型将隐式句子结构信息引入事件元素抽取的过程;最后定义模型联合训练的损失函数,对各任务进行共同优化,以学习模型的最优参数。

一种基于主题特征和隐式句子结构的事件抽取方法,该方法包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111178364.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top