[发明专利]事件触发词的提取方法、电子设备、存储介质在审
申请号: | 202111337761.2 | 申请日: | 2021-11-10 |
公开(公告)号: | CN114138980A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 简仁贤;李雪婷;吴文杰;刘影 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/211;G06F40/268;G06F40/289 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 触发 提取 方法 电子设备 存储 介质 | ||
1.一种事件触发词的提取方法,其特征在于,包括:
对待处理文本依次进行分词、词性标注和依存句法分析,确定每个词语的句法信息,所述句法信息包括词性、句法标签、词本身位置和依存节点位置;所述依存节点位置包括父节点位置和/或子节点位置;
根据每个词语的词性,提取词性为形容词的词语构成第一候选集,词性为动词的词语构成第二候选集,词性为名词的词语构成名词类候选集;
根据每个词语的句法标签、词本身位置和依存节点位置,对所述第一候选集初步过滤得到形容词类候选集,对所述第二候选集初步过滤得到动词类候选集;
将所述形容词类候选集、动词类候选集、名词类候选集分别按照相应词类触发词规则进行判断,得到形容词类触发词集、动词类触发词集和名词类触发词集。
2.根据权利要求1所述的方法,其特征在于,所述根据每个词语的句法标签、词本身位置和依存节点位置,对所述第一候选集初步过滤得到形容词类候选集,包括:
根据每个词语的句法标签、词本身位置和依存节点位置,提取所述第一候选集中带有HED标签、COO标签或VOB标签的形容词构成所述形容词类候选集。
3.根据权利要求1所述的方法,其特征在于,所述对所述第二候选集初步过滤得到动词类候选集,包括:
根据动词过滤词表,删除所述第二候选集中存在于所述动词过滤词表中的动词,得到所述动词类候选集。
4.根据权利要求1所述的方法,其特征在于,所述将所述形容词类候选集、动词类候选集、名词类候选集分别按照相应词类触发词规则进行判断,得到形容词类触发词集、动词类触发词集和名词类触发词集,包括:
根据每个词语的句法标签、词本身位置和依存节点位置,针对所述形容词类候选集中的每个形容词,按照形容词类触发词规则进行判断,提取满足条件的形容词构成形容词类触发词集;
根据每个词语的句法标签、词本身位置和依存节点位置,针对所述动词类候选集中的每个动词,按照动词类触发词规则进行判断,提取满足条件的动词构成动词类触发词集;
根据每个词语的句法标签、词本身位置和依存节点位置,针对所述名词类候选集中的每个名词,按照名词类触发词规则进行判断,提取满足条件的名词构成名词类触发词集。
5.根据权利要求4所述的方法,其特征在于,所述根据每个词语的句法标签、词本身位置和依存节点位置,针对所述形容词类候选集中的每个形容词,按照形容词类触发词规则进行判断,提取满足条件的形容词构成形容词类触发词集,包括:
根据每个词语的句法标签、词本身位置和依存节点位置,针对所述形容词类候选集中的每个形容词,判断所述形容词的带有ADV标签的子节点是否是第一预设词汇;
若是,从所述形容词类候选集中删除所述形容词,得到更新后的形容词类候选集;
在所述更新后的形容词类候选集中,提取出子节点满足第一条件的形容词,以及父节点满足第二条件的形容词,构建所述形容词类触发词集。
6.根据权利要求5所述的方法,其特征在于,所述子节点满足第一条件的形容词,包括:
子节点是带有RAD标签的第二预设词汇且与所述子节点间无其他词汇的形容词、子节点是带有CMP标签的第三预设词汇的形容词、子节点是ADV标签的第四预设词汇的形容词以及子节点是带有VOB标签的形容词。
7.根据权利要求5所述的方法,其特征在于,所述父节点满足第二条件的形容词,包括:父节点是带有VOB标签的第五预设词汇的形容词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111337761.2/1.html,转载请声明来源钻瓜专利网。