[发明专利]文本比较方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202210096674.0 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114492369A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 郭峰;范泽宇 | 申请(专利权)人: | 奇安信科技集团股份有限公司;网神信息技术(北京)股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06K9/62 |
代理公司: | 成都维飞知识产权代理有限公司 51311 | 代理人: | 张巧燕 |
地址: | 100032 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 比较 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本申请提供一种文本比较方法、装置、电子设备及计算机可读存储介质,方法包括:遍历第一文本,获取所述第一文本中各字符串的第一指纹的指纹值;遍历第二文本,获取所述第二文本中各字符串的第二指纹的指纹值;比对所述第一指纹的指纹值和所述第二指纹的指纹值,得到所述第二文本和所述第一文本的相似度。本申请实施例的方案,在时间复杂度上约为O(M+N),在空间复杂度上为O(M+N),相比于相关技术而言,可以有效降低算法的时间复杂度和空间复杂度,从而提高运行效率,提高文本比较效率,节省计算资源和时间开销,提高工作效率。
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种文本比较方法、装置、电子设备及计算机可读存储介质。
背景技术
在对大规模文本进行相似度计算时,传统方案是采用LD(编辑距离)算法、Needlema-Wunsch算法等相似度比较算法来实现。但是,无论是LD算法还是Needlema-Wunsch算法,其算法复杂度都较高,运行效率低下。
发明内容
本申请实施例的目的在于提供一种文本比较方法、装置、电子设备及计算机可读存储介质,用以提高文本比较效率。
本申请实施例提供了一种文本比较方法,包括:遍历第一文本,获取所述第一文本中各字符串的第一指纹的指纹值;遍历第二文本,获取所述第二文本中各字符串的第二指纹的指纹值;比对所述第一指纹的指纹值和所述第二指纹的指纹值,得到所述第二文本和所述第一文本的相似度;其中,所述指纹值为表征字符串内容与结构特性的值。
在上述实现过程中,通过遍历第一文本和第二文本,获取第一文本和第二文本中各字符串的指纹值,而由于每一个指纹值依赖于一个字符串,因此根据指纹值是否不同,就可以反映出指纹值对应的字符串是否不同。据此,通过比对第一指纹的指纹值和第二指纹的指纹值,即可有效确定出第二文本和第一文本之间的相似度。本申请实施例的方案,只需遍历第一文本和第二文本,并进行比对即可,在时间复杂度上约为O(M+N)(M和N为两个文本的字符串的长度,O为复杂度符号),在空间复杂度上为O(M+N)。而相关技术中的LD算法、Needlema-Wunsch算法等算法,时间复杂度和空间复杂度均为O(M*N),从而本申请实施例的方案相比于相关技术而言,可以有效降低算法的时间复杂度和空间复杂度,从而提高运行效率,提高文本比较效率,节省计算资源和时间开销,提高工作效率。
进一步地,所述第一指纹的指纹值为所述第一文本中字符串的哈希值;所述第二指纹的指纹值为所述第二文本中字符串的哈希值。
在上述实现过程中,通过采用哈希值作为字符串的指纹值,实现简单可靠,利于本申请实施例的方案在工业应用中推广。
进一步地,所述第一文本中字符串的哈希值为:所述第一文本的字符串中,最后一个字符对应计算出的哈希值;所述第二文本中字符串的哈希值为:所述第二文本的字符串中,最后一个字符对应计算出的哈希值;其中,字符串中的每一个字符的哈希值为,根据前一个字符的哈希值和自身的唯一标识值计算得到的值。
在上述实现过程中,由于字符串的哈希值为字符串中,最后一个字符所对应计算出的哈希值,且字符串中的每一个字符的哈希值需要根据前一个字符的哈希值和自身的唯一标识值计算得到,这就使得字符串中的每一个字符的特征都会向后累积,从而使得在实际计算时,具有极小差异的两个字符窜,差异会被放大,使得计算得到的哈希值差异变大,保证后续比对效果。
进一步地,字符串中的每一个字符的哈希值为:按照公式计算得到的f(x)的值;其中,x表征字符串中的第x个字符,seed为预设的常数,str[x]为字符串中第x个字符的唯一标识值。
在上述实现过程中,通过seed的设计,使得在计算每一个字符的哈希值时,可以具有更大的差异,从而使得不同字符串之间的哈希值差异更大,保证后续比对效果。
进一步地,所述唯一标识值为字符的ASCII码值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信科技集团股份有限公司;网神信息技术(北京)股份有限公司,未经奇安信科技集团股份有限公司;网神信息技术(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210096674.0/2.html,转载请声明来源钻瓜专利网。