[发明专利]文本相似度确定方法、装置、电子设备及存储介质在审
申请号: | 202310379845.5 | 申请日: | 2023-04-11 |
公开(公告)号: | CN116431765A | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 张鹏;张复生 | 申请(专利权)人: | 陕西优百信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F18/22;G06F40/289;G06F40/30 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 窦鑫磊 |
地址: | 710065 陕西省西安市雁塔区高*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 确定 方法 装置 电子设备 存储 介质 | ||
1.一种文本相似度确定方法,其特征在于,包括:
获取第一文本和第二文本;
分别对所述第一文本和所述第二文本进行预处理,获得所述第一文本对应的第一分词序列及所述第二文本对应的第二分词序列;
提取所述第一分词序列和所述第二分词序列的共现词和非共现词,并基于共现词和非共现词的数量确定第一权重系数和第二权重系数;
确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度,确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度;
根据所述第一权重系数和所述词序相似度,及所述第二权重系数和所述语义相似度,确定所述第一文本和所述第二文本的文本相似度。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度,包括:
根据所述共现词在第一分词序列中的词序,确定所述共现词在第二分词序列中映射的位置向量,获得共现词位置向量序列;
确定所述共现词位置向量序列对应的第一逆序数,并确定所述共现词位置向量序列在完全逆序情况下的第二逆序数;
根据所述第一逆序数和所述第二逆序数的比值,确定所述词序相似度。
3.根据权利要求2所述的方法,其特征在于,所述共现词对应的词序相似度的计算公式如下:
其中,M表示所述第一文本,S表示所述第二文本,siminverse(M,S)表示所述共现词对应的词序相似度,vp表示所述共现词位置向量序列,inverseNumber表示所述第一逆序数,maxInverseNumber表示所述第二逆序数,n表示所述共现词位置向量序列的长度。
4.根据权利要求1所述的方法,其特征在于,所述确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度,包括:
确定所述第一分词序列对应的第一非共现词序列,确定所述第二分词序列对应的第二非共现词序列;
针对所述第一非共现词序列中的每个第一非共现词的词向量,计算与所述第二非共现词序列中各第二非共现词的词向量之间的最大相似度值,构成最大相似度值集合;
确定所述最大相似度值集合中大于预设阈值的目标相似度值,并将所述目标相似度值之和与所述最大相似度值集合中的所有相似度值之和的比值,确定为所述语义相似度。
5.根据权利要求4所述的方法,其特征在于,所述非共现词对应的语义相似度的计算公式如下:
其中,M′表示所述第一非共现词序列,S′表示所述第二非共现词序列,表示M′中第i个第一非共现词的词向量对应的最大相似度值,α表示所述预设阈值。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于共现词和非共现词的数量确定第一权重系数和第二权重系数,包括:
确定共现词数量,并确定共现词和非共现词的总数量;
根据所述共现词数量与所述总数量的比值确定所述第一权重系数,并根据所述第一权重系数确定第二权重系数。
7.根据权利要求6所述的方法,其特征在于,所述文本相似度的计算公式如下:
sim(M,S)=Jaccard(M,S)*siminverse(M,S)+(1-Jaccard(M,S))*simc(M′,S′)
其中,M表示第一文本,S表示第二文本,M'表示第一非共现词序列,S'表示第二非共现词序列,sim(M,S)表示所述文本相似度,Jaccard(M,S)表示所述第一权重系数,siminverse(M,S)表示所述共现词对应的词序相似度,simc(M',S')表示所述非共现词对应的语义相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西优百信息技术有限公司,未经陕西优百信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310379845.5/1.html,转载请声明来源钻瓜专利网。