[发明专利]文本相似度确定方法、装置、存储介质以及电子设备在审
| 申请号: | 202210292828.3 | 申请日: | 2022-03-23 | 
| 公开(公告)号: | CN114610796A | 公开(公告)日: | 2022-06-10 | 
| 发明(设计)人: | 杜芳 | 申请(专利权)人: | 北京明略昭辉科技有限公司 | 
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62;G06F40/216 | 
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军 | 
| 地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 文本 相似 确定 方法 装置 存储 介质 以及 电子设备 | ||
1.一种文本相似度确定方法,其特征在于,包括:
获取目标检索文本和目标文档;
根据所述目标检索文本的内容确定目标系数;
计算所述目标检索文本和所述目标文档的相关度评分和邻近度评分;
将所述邻近度评分与所述目标系数相乘,所得到的结果与所述相关度评分相加,得到所述目标检索文本和所述目标文档的相似度评分。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标检索文本的内容确定目标系数包括:
识别所述目标检索文本;
在所述目标检索文本为多个独立的分词组成的文本的情况下,将所述目标系数确定为第一值;
在所述目标检索文本为一句话的情况下,将所述目标系数确定为第二值,其中,所述第二值大于所述第一值。
3.根据权利要求2所述的方法,其特征在于,所述识别所述目标检索文本包括:
识别所述目标检索文本中的标点符号的目标数量;
在所述目标数量大于预定阈值的情况下,确定所述目标检索文本为多个独立的分词组成的文本;
在所述目标数量小于或等于所述预定阈值的情况下,确定所述目标检索文本为一句话。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
统计所述目标检索文本中的文字数量;
根据所述文字数量确定所述预定阈值。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取样本检索文本和多个样本文档以及所述样本检索文本与每一个所述样本文档的样本相似度评分,其中,所述样本检索文本为多个独立的分词;
使用样本系数计算所述样本检索文本与每一个所述样本文档的第一相似度评分;
在所述样本相似度评分与所述第一相似度评分不一致的情况下,调整所述样本系数,直到所述样本相似度评分与所述第一相似度评分一致;
将调整后的所述样本系数作为所述第一值。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取样本检索文本和多个样本文档以及所述样本检索文本与每一个所述样本文档的样本相似度评分,其中,所述样本检索文本为一句话;
使用样本系数计算所述样本检索文本与每一个所述样本文档的第二相似度评分;
在所述样本相似度评分与所述第二相似度评分不一致的情况下,调整所述样本系数,直到所述样本相似度评分与所述第二相似度评分一致;
将调整后的所述样本系数作为所述第二值。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述方法还包括:
在获取到用户的搜索指令的情况下,获取所述搜索指令中的所述目标检索文本;
将包含所述目标文档的多个第一文档中,与所述目标检索文本的相似度评分最大的文档推送给所述用户。
8.一种文本相似度确定装置,其特征在于,包括:
第一获取模块,用于获取目标检索文本和目标文档;
确定模块,用于根据所述目标检索文本的内容确定目标系数;
第一计算模块,用于计算所述目标检索文本和所述目标文档的相关度评分和邻近度评分;
第二计算模块,用于将所述邻近度评分与所述目标系数相乘,所得到的结果与所述相关度评分相加,得到所述目标检索文本和所述目标文档的相似度评分。
9.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210292828.3/1.html,转载请声明来源钻瓜专利网。





