[发明专利]相似文本推送方法、装置、电子设备及计算机存储介质有效
申请号: | 202110322250.7 | 申请日: | 2021-03-25 |
公开(公告)号: | CN113033198B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 杜佳辉;周琅 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06K9/62 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 文本 推送 方法 装置 电子设备 计算机 存储 介质 | ||
本发明涉及智能决策技术,揭露了一种相似文本推送方法,包括:提取历史文本集的文本关键词;对文本关键词进行多重分类得到分类关键词;按照分类关键词将历史文本集进行分类存储,得到文本数据表;获取目标文本,提取目标文本的目标关键词;计算目标关键词与文本数据表中各分类关键词的词相似度,汇集词相似度大于预设的第一相似阈值的历史文本为候选文本集;计算目标文本与候选文本集中各候选文本的整体文本相似度,将文本相似度大于预设的第二相似阈值的候选文本推送给用户。此外,本发明还涉及区块链技术,历史文本集可存储于区块链节点。本发明还提出相似文本推送装置、设备及介质。本发明可以解决向用户推送相似文本的精确度较低的问题。
技术领域
本发明涉及智能决策技术领域,尤其涉及一种相似文本推送方法、装置、电子设备及计算机可读存储介质。
背景技术
相似文本匹配技术已经在人们日常生活中得到越来越多的应用,例如,学术上的论文查重,文本处理中的相似文本查询等。
目前主要的相似文本匹配方法多为基于关键词的相似文本匹配,即提取文本中的关键词,将不同文本之间的关键词进行对比分析,得到关键词之间的重合度,根据重合度判断不同文本之间的相似性,但少量的关键词无法代替真正的文本内容,因此仅依靠关键词来匹配相似文本匹配并推送给用户的精确度较低。
发明内容
本发明提供一种相似文本推送方法、装置及计算机可读存储介质,其主要目的在于解决向用户推送相似文本的精确度较低的问题。
为实现上述目的,本发明提供的一种相似文本推送方法,包括:
获取历史文本集,对所述历史文本集中各历史文本进行关键词提取,得到文本关键词;
对所述文本关键词进行多重分类,得到分类关键词;
按照所述分类关键词将所述历史文本集进行分类存储,得到文本数据表;
获取目标文本,对所述目标文本进行关键词提取,得到目标关键词;
计算所述目标关键词与所述文本数据表中各历史文本的分类关键词的词相似度,汇集所述词相似度大于预设的第一相似阈值的历史文本为候选文本集;
计算所述目标文本与所述候选文本集中各候选文本的整体文本相似度,将所述文本相似度大于预设的第二相似阈值的候选文本推送给用户。
可选地,所述对所述历史文本集中各历史文本进行关键词提取,得到文本关键词,包括:
对所述历史文本集中各历史文本进行分词处理,得到文本分词;
利用预先构建的关键词标注模型对所述文本分词进行类别标注,得到分词类别;
选取预设的分词类别对应的文本分词为所述历史文本集的文本关键词。
可选地,所述对所述历史文本集中各历史文本进行分词处理,得到文本分词,包括:
选取所述历史文本集中各历史文本处理区域;
将所述文本处理区域内的文本内容转化纯文本文件;
利用句子边界检测方式对所述纯文本文件分解为多个单独句子;
将所述多个单独句子分别进行单词切分,得到文本分词。
可选地,所述利用预先构建的关键词标注模型对所述文本分词进行类别标注之前,所述方法还包括:
获取初始模型和分词语料,其中,所述分词语料中包含至少一个标准分词及所述标准分词对应的标准分词类别;
利用所述初始模型对所述分词语料中各标准分词进行类别标注,得到预测分词类别;
计算所述预测分词类别和所述标准分词类别之间的差异值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110322250.7/2.html,转载请声明来源钻瓜专利网。