[发明专利]事件信息的抽取方法及装置、存储介质、电子设备在审

专利信息
申请号: 202011461123.7 申请日: 2020-12-11
公开(公告)号: CN112580328A 公开(公告)日: 2021-03-30
发明(设计)人: 王硕;杨康;徐成国;周星杰 申请(专利权)人: 上海明略人工智能(集团)有限公司
主分类号: G06F40/205 分类号: G06F40/205;G06F40/211;G06N3/04;G06K9/00
代理公司: 北京华夏泰和知识产权代理有限公司 11662 代理人: 蔡良伟
地址: 200030 上海市徐汇区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 事件 信息 抽取 方法 装置 存储 介质 电子设备
【说明书】:

发明公开了一种事件信息的抽取方法及装置、存储介质、电子设备,属于人工智能领域。其中,该方法包括:获取非结构化文本中事件元素的文本特征,以及获取多个事件元素之间的句法依赖关系,其中,所述事件元素包括事件触发词和事件论元;以所述文本特征和句法依赖关系为输入信息,采用图注意力网络GAT编码所述非结构化文本的图结构特征;将所述图结构特征输入全连接层映射到样本空间,并采用Softmax将所述图结构特征映射到所述事件元素的类别标签。通过本发明,解决了相关技术中的事件抽取方法无法编码事件元素之间的依赖关系特征的技术问题,提高了模型对文本的表征能力,从而提高事件的抽取性能。

技术领域

本发明涉及人工智能领域,具体而言,涉及一种事件信息的抽取方法及装置、存储介质、电子设备。

背景技术

相关技术中,事件抽取是自然语言处理信息抽取领域中一项极具挑战的任务,它旨在从非结构化的文本中提取结构化的事件信息,如时间、地点、人物、事件等,应用领域广泛。

相关技术中,事件抽取方法有两种方法,一种是基于流水线模式的,该模式首先进行触发词识别与分类,再进一步实现论元角色的识别与分类。基于流水线的模型往往容易产生错误传播的问题,即:一旦触发词识别错误,则会导致论元角色识别的错误,且论元识别任务无法辅助触发词的识别任务,无法利用触发词和论元之间的依赖关系辅助事件抽取;另一种方法是基于联合的模式,即利用触发词和论元的关系来建立联合模型,预测触发词和论元角色,该方法解决了流水线模型中存在的级联误差问题,随着深度学习的快速发展,越来越多的学者采用联合事件抽取方法,对事件触发词和事件论元联合建模,但他们大多抽取的是英文事件,对中文事件抽取方法较少,一是不能抽取到中文表达事件触发词和事件论元的文本长度特征;二是不能抽取事件触发词和事件论元之间的存在的句法依赖关系,从而导致事件的特征缺失,不能识别出完整的语义,或者语义的识别准确率低。

针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种事件信息的抽取方法及装置、存储介质、电子设备。

根据本申请实施例的一个方面,提供了一种事件信息的抽取方法,包括:获取非结构化文本中事件元素的文本特征,以及获取多个事件元素之间的句法依赖关系,其中,所述事件元素包括事件触发词和事件论元;以所述文本特征和句法依赖关系为输入信息,采用图注意力网络GAT编码所述非结构化文本的图结构特征;将所述图结构特征输入全连接层映射到样本空间,并采用Softmax将所述图结构特征映射到所述事件元素的类别标签。

进一步,获取非结构化文本中事件元素的文本特征包括:采用BERT模型的中间M个连续隐藏层提取所述事件元素的特征向量,其中,M为大于1的整数;采用多尺度卷积神经网络CNN提取所述特征向量的局部特征。

进一步,采用多尺度CNN提取所述特征向量的局部特征包括:采用尺度为1*1,3*3,5*5的CNN卷积核从所述特征向量中提取不同尺度下文本的n-gram特征,其中,所述多尺度CNN的激活函数为线性整流函数ReLU。

进一步,获取多个事件元素之间的句法依赖关系特征包括:采用StandFordNLP进行依存句法分析,解析所述非结构化文本中词语与词语之间的句法依赖关系,其中,所述句法依赖关系用于表征两个事件元素之间的有向依赖关系;采用有向图的邻接矩阵存储所述两个事件元素之间的句法依赖关系。

进一步,采用图注意力网络GAT编码所述非结构化文本的图结构特征包括:对于句法依存树中每个顶点词,计算与其句法依存关系相邻顶点的注意力因子,其中,所述非结构化文本中句法依赖关系表示为句法依存树;对注意力因子进行归一化处理,得到注意力系数,采用所述注意力系数对文本特征进行加权求和,得到每个顶点词的注意力向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011461123.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top