[发明专利]针对字符串的相似度确定方法、装置、设备及存储介质在审
申请号: | 202110695107.2 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113344100A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 董润华 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/903 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 字符串 相似 确定 方法 装置 设备 存储 介质 | ||
本申请实施例提供了一种针对字符串的相似度确定方法、装置、设备及存储介质,本申请涉及自然语言处理技术领域,该方法包括:获取第一字符串以及第二字符串;根据第一字符串以及第二字符串,确定第一字符串与第二字符串之间的第一最大公共子串和第二最大公共子串;根据第一最大公共子串和第二最大公共子串分别确定第一字符串与第二字符串之间的第一相速度和第二相似度;根据第一相似度以及第二相似度,确定第一字符串与第二字符串之间的目标相似度。采用本申请,可以提升针对字符串的相似度确定准确度。本申请涉及区块链技术,如可将从区块链中获取第一字符串和第二字符串。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种针对字符串的相似度确定方法、装置、设备及存储介质。
背景技术
在自然语言处理领域里,计算字符串的相似度是最基本的问题,对于这个问题,可以分为大的两类,一种是基于字符串的相似度计算,一种是基于语义的相似度计算。基于字符串的相似度计算一般是计算找出两个字符串中出现的一个最大共同字符部分,然后根据这一个最大公共字符部分计算两个字符串的编辑距离,从而根据编辑距离计算相似度。基于语义的相似度计算方法主要用到了基于语料库的方法,这种方法是利用从语料库中获取的信息来进行文本相似度计算,但是在实际工业环境中依靠这两种方式计算出的相似度准确度的都有待提升。
发明内容
本申请实施例提供了一种针对字符串的相似度确定方法、装置、设备及存储介质,可以提升针对字符串的相似度确定准确度。
第一方面,本申请实施例提供了一种针对字符串的相似度确定方法,包括:
获取第一字符串以及第二字符串;
根据所述第一字符串以及所述第二字符串,确定所述第一字符串与所述第二字符串之间的第一最大公共子串;
根据所述第一最大公共子串确定所述第一字符串与所述第二字符串之间的第一相似度;
根据所述第一字符串中除所述第一最大公共子串之外的字符以及所述第二字符串中除所述第一最大公共子串之外的字符,确定所述第一字符串与所述第二字符串之间的第二最大公共子串;
根据所述第二最大公共子串确定所述第一字符串与所述第二字符串之间的第二相似度;
根据所述第一相似度以及所述第二相似度,确定所述第一字符串与所述第二字符串之间的目标相似度。
可选的,所述方法还包括:
从所述第一字符串和所述第二字符串中确定出目标字符串;
所述根据所述第一最大公共子串确定所述第一字符串与所述第二字符串之间的第一相似度,包括:
计算所述第一最大公共子串的长度与所述目标字符串的长度之间的比值;
将所述比值确定为所述第一字符串与所述第二字符串之间的第一相似度。
可选的,所述方法还包括:
从所述第一字符串和所述第二字符串中确定出长度最长的字符串和长度最短的字符串;
计算所述长度最短的字符串的长度与所述长度最长的字符串的长度之间的第一比值;
当所述第一比值大于或等于第一预设值时,执行所述根据所述第一字符串以及所述第二字符串,确定所述第一字符串与所述第二字符串之间的第一最大公共子串的步骤。
可选的,所述方法还包括:
当所述第一比值小于所述第一预设值时,将所述第一比值确定为所述第一字符串与所述第二字符串之间的相似度。
可选的,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110695107.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:移动机器人控制方法、装置、设备及存储介质
- 下一篇:可拆卸式阀门保冷装置