[发明专利]文本相似度计算方法、装置、计算机设备和存储介质有效
申请号: | 201810031770.0 | 申请日: | 2018-01-12 |
公开(公告)号: | CN108304378B | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 艾明 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 谢曲曲 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请涉及一种文本相似度计算方法、系统、计算机设备和存储介质。方法包括:获取待匹配字符序列和目标字符序列;对待匹配字符序列和目标字符序列分别进行预处理,得到相应的待匹配词序列和目标词序列;将待匹配词序列中包含的待匹配词和目标词序列中包含的目标词通过第一相似度算法进行计算,得到第一相似度;提取所有待匹配词形成待匹配词集合,并提取所有目标词形成目标词集合;将待匹配词集合和目标词集合通过第二相似度算法进行计算,得到第二相似度;根据第一相似度和第二相似度进行计算,得到待匹配字符序列和目标字符序列的文本相似度。采用本方法能够提高文本相似度的准确性。 | ||
搜索关键词: | 目标词 匹配词 文本相似度 相似度 目标字符序列 匹配字符 集合 计算机设备 相似度算法 存储介质 预处理 申请 | ||
【主权项】:
1.一种文本相似度计算方法,所述方法包括:获取待匹配字符序列和目标字符序列;对所述待匹配字符序列和所述目标字符序列分别进行预处理,得到相应的待匹配词序列和目标词序列;将所述待匹配词序列中包含的待匹配词和所述目标词序列中包含的目标词通过第一相似度算法进行计算,得到第一相似度;提取所有待匹配词形成待匹配词集合,并提取所有目标词形成目标词集合;将所述待匹配词集合和所述目标词集合通过第二相似度算法进行计算,得到第二相似度;根据所述第一相似度和所述第二相似度进行计算,得到所述待匹配字符序列和所述目标字符序列的文本相似度;所述将所述待匹配词序列中包含的待匹配词和所述目标词序列中包含的目标词通过第一相似度算法进行计算,得到第一相似度,包括:将所述待匹配词序列中包含的待匹配词和所述目标词序列中包含的目标词通过编辑距离公式进行计算,得到所述待匹配词序列与所述目标词序列之间的编辑距离;获取所述待匹配词序列中包含的待匹配词的第一数量,和所述目标词序列中包含的目标词的第二数量;根据所述编辑距离、第一数量和第二数量进行计算,得到第一相似度;所述通过第二相似度算法进行计算,得到第二相似度的过程包括:计算每个待匹配词与目标集合的目标词的相似度的最大值,将每个所述最大值相乘得到第二相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810031770.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种长尾词的提取方法及相关装置
- 下一篇:一种文章识别方法、装置及存储介质