[发明专利]文本相似度确定方法、装置、存储介质以及电子设备在审
| 申请号: | 202210292828.3 | 申请日: | 2022-03-23 | 
| 公开(公告)号: | CN114610796A | 公开(公告)日: | 2022-06-10 | 
| 发明(设计)人: | 杜芳 | 申请(专利权)人: | 北京明略昭辉科技有限公司 | 
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62;G06F40/216 | 
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军 | 
| 地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 文本 相似 确定 方法 装置 存储 介质 以及 电子设备 | ||
本发明公开了一种文本相似度确定方法、装置、存储介质以及电子设备。该方法包括:获取目标检索文本和目标文档;根据目标检索文本的内容确定目标系数;计算目标检索文本和目标文档的相关度评分和邻近度评分;将邻近度评分与目标系数相乘,所得到的结果与相关度评分相加,得到目标检索文本和目标文档的相似度评分。本发明解决了检索文本与文本文档的相似度评分不准确的技术问题。
技术领域
本发明涉及信息检索领域,具体而言,涉及一种文本相似度确定方法、装置、存储介质以及电子设备。
背景技术
现有技术中,在根据用户的检索文本来检索与检索文本相似的目标文档的时候,可以计算检索文本与文档之间的相似度评分,从而确定与检索文本最相似的目标文档。相似度评分可以根据相关度评分和邻近度评分来共同确定。
然而,现有技术中,在计算相似度评分的过程中,并未考虑检索文本对邻近度评分的影响,造成确定出的相似度评分不准确。
发明内容
本发明实施例提供了一种文本相似度确定方法、装置、存储介质以及电子设备,以至少解决检索文本与文本文档的相似度评分不准确的技术问题。
根据本发明实施例的一个方面,提供了一种文本相似度确定方法,包括:获取目标检索文本和目标文档;根据上述目标检索文本的内容确定目标系数;计算上述目标检索文本和上述目标文档的相关度评分和邻近度评分;将上述邻近度评分与上述目标系数相乘,所得到的结果与上述相关度评分相加,得到上述目标检索文本和上述目标文档的相似度评分。
根据本发明实施例的另一方面,提供了一种文本相似度确定装置,包括:第一获取模块,用于获取目标检索文本和目标文档;确定模块,用于根据上述目标检索文本的内容确定目标系数;第一计算模块,用于计算上述目标检索文本和上述目标文档的相关度评分和邻近度评分;第二计算模块,用于将上述邻近度评分与上述目标系数相乘,所得到的结果与上述相关度评分相加,得到上述目标检索文本和上述目标文档的相似度评分。
作为一种可选的示例,上述确定模块包括:识别单元,用于识别上述目标检索文本;第一确定单元,用于在上述目标检索文本为多个独立的分词组成的文本的情况下,将上述目标系数确定为第一值;第二确定单元,用于在上述目标检索文本为一句话的情况下,将上述目标系数确定为第二值,其中,上述第二值大于上述第一值。
作为一种可选的示例,上述识别单元包括:识别子单元,用于识别上述目标检索文本中的标点符号的目标数量;第一确定子单元,用于在上述目标数量大于预定阈值的情况下,确定上述目标检索文本为多个独立的分词组成的文本;在上述目标数量小于或等于上述预定阈值的情况下,确定上述目标检索文本为一句话。
作为一种可选的示例,上述识别单元还包括:统计子单元,用于统计上述目标检索文本中的文字数量;第二确定子单元,用于根据上述文字数量确定上述预定阈值。
作为一种可选的示例,上述确定模块还包括:第一获取单元,用于获取样本检索文本和多个样本文档以及上述样本检索文本与每一个上述样本文档的样本相似度评分,其中,上述样本检索文本多个独立的分词;第一计算单元,用于使用样本系数计算上述样本检索文本与每一个上述样本文档的第一相似度评分;第一调整单元,用于在上述样本相似度评分与上述第一相似度评分不一致的情况下,调整上述样本系数,直到上述样本相似度评分与上述第一相似度评分一致;第三确定单元,用于将调整后的上述样本系数作为上述第一值。
作为一种可选的示例,上述确定模块还包括:第二获取单元,用于获取样本检索文本和多个样本文档以及上述样本检索文本与每一个上述样本文档的样本相似度评分,其中,上述样本检索文本为一句话;第二计算单元,用于使用样本系数计算上述样本检索文本与每一个上述样本文档的第二相似度评分;第二调整单元,用于在上述样本相似度评分与上述第二相似度评分不一致的情况下,调整上述样本系数,直到上述样本相似度评分与上述第二相似度评分一致;第四确定单元,用于将调整后的上述样本系数作为上述第二值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210292828.3/2.html,转载请声明来源钻瓜专利网。





