[发明专利]提取短文本关键词的方法、装置、设备及存储介质在审
申请号: | 202010156963.6 | 申请日: | 2020-03-09 |
公开(公告)号: | CN111444330A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 唐亚 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F16/31;G06F40/289;G06F40/253;G06F40/205;G06F40/169 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 文本 关键词 方法 装置 设备 存储 介质 | ||
1.一种提取短文本关键词的方法,其特征在于,包括:
对待处理短文本进行关键词预提取处理,获得候选关键词;
获取所述候选关键词的目标标注信息以及所述目标标注信息对应的目标候选关键词,得到待处理信息,所述目标标注信息为顺序号为连续性的标注信息;
根据所述待处理信息创建N元语法信息,并将所述N元语法信息标注至所述目标候选关键词,得到标注关键词;
根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语;
按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语;
当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成;
将存在交叉字的所述修正候选短语进行拼接处理,得到目标关键词,所述交叉字指示在两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语,包括:
获取所述标注关键词的词性,并按照预设过滤规则和所述词性对所述标注关键词进行过滤处理,得到目标标注关键词;
比较所述目标标注关键词的N元语法信息的值的大小,获得值最大的N元语法信息对应的目标词;
根据所述目标标注信息中的目标顺序号,获取所述目标标注关键词中排序在所述目标词之前的关键词,得到待合并关键词;
根据所述目标顺序号对所述待合并关键词和所述目标词进行合并,获得候选短语。
3.根据权利要求1所述的方法,其特征在于,所述按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语,包括:
通过分析所述候选短语的词性是否存在预设词性中的至少一项,获得第一待分析短语和第二待分析短语,所述预设词性包括动词、动名词和动词语素,所述第一待分析短语为词性存在所述预设词性中至少一项的候选短语,所述第二待分析短语为词性不为所述预设词性中的任意一项的候选短语;
根据所述预设词性连接后的词性和第一预设规则对所述第一待分析短语进行分析,获得目标候选短语;
根据第二预设规则和目标词性对所述第二待分析短语进行分析,获得目标候选短语,所述目标词性为所述第二待分析短语的各词性和所述各词性连接后的词性。
4.根据权利要求1所述的方法,其特征在于,所述当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成,包括:
将所述目标候选短语进行分类,得到主目标候选短语和/或子目标候选短语,所述子目标候选短语由所述主目标候选短语中的字词构成;
将所述主目标候选短语作为父节点,将所述子目标候选短语的长度作为分支条件;
根据所述主目标候选短语、所述子目标候选短语和所述分支条件,得到子字符串关系识别树;
检索所述目标候选短语在所述子字符串关系识别树中的位置;
若检索到目标候选短语位于所述子字符串关系识别树中的父节点处,则删除所述子字符串关系识别树中所有子节点对应的目标候选短语,得到修正候选短语;
若检索到目标候选短语位于所述子字符串关系识别树中的候选子节点处,则删除目标子节点对应的目标候选短语,得到修正候选短语,所述目标子节点为所述候选子节点后的子节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010156963.6/1.html,转载请声明来源钻瓜专利网。