[发明专利]一种话题提取方法、装置、终端设备及存储介质有效
申请号: | 202010230784.2 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111460787B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 赵洋;包荣鑫;王宇;夏政委;朱继刚 | 申请(专利权)人: | 深圳价值在线信息科技股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 任敏 |
地址: | 518000 广东省深圳市福田区沙头街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 话题 提取 方法 装置 终端设备 存储 介质 | ||
1.一种话题提取方法,其特征在于,包括:
获取待处理的文本数据;
确定所述文本数据中每个词语的词性信息;
基于所述每个词语的词性信息,生成所述文本数据的依存句法分析列表,所述依存句法分析列表包括所述文本数据中多个词语对之间的词性依存关系,所述词性依存关系表示为基于各自的词性信息,两个词语之间具有可搭配的可能性;
根据所述多个词语对之间的词性依存关系,确定候选词;
从所述依存句法分析列表中提取与所述候选词相匹配的目标词,并将所述候选词与所述目标词组合为与所述文本数据相对应的话题;
其中,所述根据所述多个词语对之间的词性依存关系,确定候选词,包括:
针对所述文本数据中的每个待处理词语,根据包含所述待处理词语的词语对之间的词性依存关系,生成初始识别句式,每个所述待处理词语对应生成一个初始识别句式,所述初始识别句式为基于所述依存句法分析列表构建的依存句法字典中用于维护所述待处理词语对应子节点的字典;
判断所述初始识别句式中是否包含第一目标关系,所述第一目标关系为定中关系;
若所述初始识别句式中包含所述第一目标关系,则根据所述初始识别句式确定候选词,所述候选词为所述初始识别句式中的主语或宾语;
若所述初始识别句式中未包含所述第一目标关系,则根据所述待处理词语的词性信息确定候选词。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本数据中每个词语的词性信息,包括:
对所述文本数据进行分词,并对分词后的每个词语进行词性标注,获得所述每个词语的词性信息。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述每个词语的词性信息,生成所述文本数据的依存句法分析列表,包括:
确定待处理的词语对,所述词语对通过对所述文本数据中任意两个词语进行组合得到;
逐个判断每个词语对中两个词语之间是否存在词性依存关系;
将具有所述词性依存关系的词语对及其依存关系类型进行关联存储,获得所述文本数据的依存句法分析列表。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待处理词语的词性信息确定候选词,包括:
判断所述待处理词语是否为动词;
若所述待处理词语不为动词,则将所述待处理词语确定为候选词;
若所述待处理词语为动词,则依次判断所述初始识别句式中是否包含第二目标关系或第三目标关系,若所述初始识别句式中包含所述第二目标关系或第三目标关系,则通过递归完善所述待处理词语对应子节点的字典中具有所述第二目标关系或所述第三目标关系的各个词语主体,生成目标识别句式,从所述目标识别句式中确定所述候选词,所述第二目标关系为动宾关系,所述第三目标关系为主谓关系,所述候选词为所述目标识别句式中的主语或宾语。
5.根据权利要求1所述的方法,其特征在于,所述从所述依存句法分析列表中提取与所述候选词相匹配的目标词,包括:
遍历所述文本数据中的每个词语,判断当前词语是否为动词;
若所述当前词为动词,则根据包含所述当前词的多个词语对之间的词性依存关系确定待提取的话题的类型,基于所述类型确定目标词;
若所述当前词不为动词,则识别所述当前词是否属于实体词,若所述当前词属于实体词,则将所述实体词识别为目标词。
6.根据权利要求5所述的方法,其特征在于,与所述文本数据相对应的话题包括多个,所述方法还包括:
分别识别所述多个话题的类型,所述类型分别具有相应的优先级;
提取所述优先级最高的话题作为与所述文本数据相对应的目标话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳价值在线信息科技股份有限公司,未经深圳价值在线信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010230784.2/1.html,转载请声明来源钻瓜专利网。