[发明专利]一种装备型号名称的模糊匹配方法在审
申请号: | 201711202912.7 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107977422A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 田振兴;黄桂兰;史慕志;杨宇静;张晓敏;钱金星;代杰 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏圣典律师事务所32237 | 代理人: | 黄振华 |
地址: | 210007 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 装备 型号 名称 模糊 匹配 方法 | ||
1.一种装备型号名称的模糊匹配方法,其特征在于,包括以下步骤:
步骤1,根据装备型号名称特点,将标准装备型号名称进行扩充;
步骤2,将待匹配装备型号名称与所有扩充的装备型号名称进行匹配,依次计算改进Jaro-Winkler距离;
步骤3,从所有改进Jaro-Winkler距离中选取最大值,与阈值进行比较,大于阈值则表示与扩充装备型号名称的原始型号名称匹配,否则为不匹配。
2.根据权利要求1所述的方法,其特征在于,步骤1包括如下步骤:
步骤1-1,读取数据库中的装备型号名称字典表,将每一原始装备型号名称扩充为常见的表现形式,即利用汉字、汉字的拼音首字母和阿拉伯数字和数字的汉字表现形式进行交叉组合;
步骤1-2,将原始装备型号名称与扩充后的装备型号名称进行对应存储,并建立对照关系。
3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1,将待匹配装备型号名称字符串与一个扩充的装备型号名称字符串进行匹配计算,计算出改进Jaro距离dj,dj表示最后得分;
步骤2-2,强化dj中装备型号名称中数字编号的比重,得到新的得分dg;
步骤2-3,计算得到改进Jaro-Winkler距离,判断是否还有未参与比对的扩充的装备型号名称,如果有,转步骤2-1继续计算,否则转步骤3。
4.根据权利要求3所述的方法,其特征在于,步骤2-1中,通过如下公式计算两个给定装备名称字符串S1和S2的Jaro距离dj:
其中,dj表示最后得分,m是匹配的字符,t是换位的数目,两个分别来自S1和S2的字符如果相距不超过时,就判定这两个字符是匹配的,所有匹配的字符数就是m值,而这些相互匹配的字符m则决定了换位的数目t,不同顺序的匹配字符的数目的一半即为换位的数目t。
5.根据权利要求4所述的方法,其特征在于,步骤2-2中,通过如下公式计算得到新的得分dg:
其中,k为数字比重常量。
6.根据权利要求5所述的方法,其特征在于,步骤2-3包括:Jaro-Winkler算法定义了一个前缀范围p,对于要匹配的两个字符串,如果前缀部分有长度为L的部分字符串相同,则改进Jaro-Winkler距离d为:
d=dg+L*p(1-dg),
其中,P是一个范围因子常量,用来调整前缀匹配的权值,P的值不超过0.25。
7.根据权利要求6所述的方法,其特征在于,步骤3包括如下步骤:
步骤3-1,假设步骤1中扩充的装备型号名称有n个,则步骤2最终得到了n个改进Jaro-Winkler距离,从n个改进Jaro-Winkler距离中选取最大值;
步骤3-2,将最大值与阈值dw进行比较,dw取值范围是0.5至1.0之间,大于阈值dw则表示与扩充装备型号名称的原始型号名称匹配,否则为不匹配;若仍有未匹配的待匹配装备型号名称,转步骤2,否则结束计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711202912.7/1.html,转载请声明来源钻瓜专利网。