[发明专利]相似文本的确定方法、装置及设备有效
申请号: | 201710346160.5 | 申请日: | 2017-05-15 |
公开(公告)号: | CN107329947B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 徐云恒;熊胜;汤卫东;杨晶蕾;程幸生;江为强 | 申请(专利权)人: | 中国移动通信集团湖北有限公司;中国移动通信集团公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 彭琼 |
地址: | 430023 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种相似文本的确定方法、装置及设备。该方法包括:将第一目标文本和第二目标文本划分为相同数量的短文本,并筛选第一特征文本和筛选第二特征文本;基于第一特征文本与第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算第一目标文本和第二目标文本之间允许不相同字符数;识别第一特征文本和第二特征文本之间不相同字符数;不相同字符数大于允许不相同字符数,确定第一目标文本和第二目标文本不相似;不相同字符数小于等于允许不相同字符数,确定第一目标文本和第二目标文本相似。本发明实施例能够不依赖中文分词库与中文分词算法,确定两个目标文本是否相似,减少内存的消耗和开销。 | ||
搜索关键词: | 相似 文本 确定 方法 装置 设备 | ||
【主权项】:
1.一种相似文本的确定方法,其特征在于,包括:将第一目标文本和第二目标文本划分为相同数量的短文本;从所述第一目标文本的短文本中筛选第一特征文本,从所述第二目标文本短文本中筛选第二特征文本;基于所述第一特征文本与所述第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算所述第一目标文本和所述第二目标文本之间允许不相同字符数;识别所述第一特征文本和所述第二特征文本之间不相同字符数;所述不相同字符数大于所述允许不相同字符数,确定所述第一目标文本和第二目标文本不相似;所述不相同字符数小于等于所述允许不相同字符数,确定所述第一目标文本和第二目标文本相似;其中,所述第一目标文本的短文本和所述第二目标文本的短文本之间一一对应;所述基于所述第一特征文本与所述第二特征文本中字符长度较大的目标字符长度值和预设相似阈值,计算所述第一目标文本和所述第二目标文本之间允许不相同字符数,包括:根据公式计算所述允许不相同字符数,所述公式为:y=a‑b×a其中,y表示所述允许不相同字符数,a表示所述目标字符长度值,b表示所述预设相似阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团湖北有限公司;中国移动通信集团公司,未经中国移动通信集团湖北有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710346160.5/,转载请声明来源钻瓜专利网。
- 上一篇:相似度的计算方法和装置
- 下一篇:燃气轮机发电机组的鲁棒自适应控制器