[发明专利]事件触发词的提取方法、电子设备、存储介质在审

专利信息
申请号: 202111337761.2 申请日: 2021-11-10
公开(公告)号: CN114138980A 公开(公告)日: 2022-03-04
发明(设计)人: 简仁贤;李雪婷;吴文杰;刘影 申请(专利权)人: 竹间智能科技(上海)有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F40/211;G06F40/268;G06F40/289
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 衡滔
地址: 200030 上海市徐*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 事件 触发 提取 方法 电子设备 存储 介质
【说明书】:

本申请提供一种事件触发词的提取方法、电子设备、存储介质,该方法包括:对待处理文本依次进行分词、词性标注和依存句法分析,确定每个词语的句法信息;根据每个词语的词性,提取词性为形容词的词语构成第一候选集,词性为动词的词语构成第二候选集,词性为名词的词语构成名词类候选集;根据每个词语的句法标签、词本身位置和依存节点位置,对第一候选集初步过滤得到形容词类候选集,对第二候选集初步过滤得到动词类候选集;将形容词类候选集、动词类候选集、名词类候选集分别按照相应词类触发词规则进行判断,得到形容词类触发词集、动词类触发词集和名词类触发词集。该方案提高了事件触发词提取的准确性。

技术领域

本申请涉及自然语言处理技术领域,特别涉及一种事件触发词的提取 方法、电子设备、计算机可读存储介质。

背景技术

事件抽取任务是篇章信息抽取的重要子任务,可以分为基于特定领域 的事件抽取和开放域事件抽取这两种类型。基于特定领域的事件抽取包括 紧急灾害事件抽取、就职等事件抽取等。基于领域的事件抽取复用性比较 差、迁移成本比较高、依赖事件类型识别前处理,由于前述问题,开放域 的事件抽取逐渐成了研究的热点。

在开放域的事件抽取任务中,事件的定义和内部组成成分极为重要。 事件是在一定时空条件下,有若干角色参与,因动作特征而产生了状态的 改变,具有动态性的语义特征。根据事件的内涵意义,结构化的事件内容 包含事件触发词和事件的语义角色,事件触发词是事件的核心成分并驱动 管辖这事件的语义角色,大多是动词词性,由此可见,事件触发词识别的 准确程度对于事件的准确率、召回率甚至性能都是十分关键的。

事件抽取本质任务是文本中语义信息的抽取,在词法、句子结构分析 的基础上,通常采用语义角色标注的方法来获取事件中的语义信息。事件 触发词的抽取一般依赖于模型对于标注语料的学习,但囿于标注人对于事 件的认知不一、标注语料准确率参差不齐、模型学习效果等,影响到触发 词的准确率和一致性,进而影响事件中语义角色的抽取。

发明内容

本申请实施例提供了一种事件触发词的提取方法,用以提高触发词提 取的准确性。

本申请实施例提供的了一种事件触发词的提取方法,该方法包括:

对待处理文本依次进行分词、词性标注和依存句法分析,确定每个词 语的句法信息,所述句法信息包括词性、句法标签、词本身位置和依存节 点位置;所述依存节点位置包括父节点位置和/或子节点位置;

根据每个词语的词性,提取词性为形容词的词语构成第一候选集,词 性为动词的词语构成第二候选集,词性为名词的词语构成名词类候选集;

根据每个词语的句法标签、词本身位置和依存节点位置,对所述第一 候选集初步过滤得到形容词类候选集,对所述第二候选集初步过滤得到动 词类候选集;

将所述形容词类候选集、动词类候选集、名词类候选集分别按照相应 词类触发词规则进行判断,得到形容词类触发词集、动词类触发词集和名 词类触发词集。

在一实施例中,所述根据每个词语的句法标签、词本身位置和依存节 点位置,对所述第一候选集初步过滤得到形容词类候选集,包括:

根据每个词语的句法标签、词本身位置和依存节点位置,提取所述第 一候选集中带有HED标签、COO标签或VOB标签的形容词构成所述形容 词类候选集。

在一实施例中,所述对所述第二候选集初步过滤得到动词类候选集, 包括:

根据动词过滤词表,删除所述第二候选集中存在于所述动词过滤词表 中的动词,得到所述动词类候选集。

在一实施例中,所述将所述形容词类候选集、动词类候选集、名词类 候选集分别按照相应词类触发词规则进行判断,得到形容词类触发词集、 动词类触发词集和名词类触发词集,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111337761.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top