[发明专利]一种装备型号名称的模糊匹配方法在审
申请号: | 201711202912.7 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107977422A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 田振兴;黄桂兰;史慕志;杨宇静;张晓敏;钱金星;代杰 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏圣典律师事务所32237 | 代理人: | 黄振华 |
地址: | 210007 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 装备 型号 名称 模糊 匹配 方法 | ||
技术领域
本发明属于计算机数据仓库技术领域,尤其涉及一种装备型号名称的模糊匹配方法。
背景技术
在数据仓库中,为了保证数据质量,数据仓库工程通常开始于历史数据的读取,并要进行数据清洗和质量控制。然而大多数情况下,数据源来自企业中各个系统,并不是所有的数据都有统一的标准、这样在做ETL过程的时候就需要将需要的数据清洗出来,而清洗的过程中主要是对数据进行操作,因此采用一个高效的合理的算法必不可少。
Jaro-Winkler距离(Winkler,1990)是计算2个字符串之间相似度的一种算法。它是Jaro距离算法的变种。主要用于数据连接重复记录处理,Jaro-Winkler距离最后得分越高说明相似度越大。Jaro-Winkler距离适合于比如名称这样较短的字符之间计算相似度。0分表示没有任何相似度,1分则代表完全匹配。
Jaro-Winkler距离算法适合于英文字符名称的模糊匹配,对于中文装备名称来说存在如下问题:
(1)中文汉字不是单字节表示的,根据编码不同至少为双字节表示一个汉字;
(2)中文装备名称表示形式多样,比如对数字可表示为汉字,汉字可能由拼音首字母代替;
(3)装备名称中的数字串不能按照字符进行比较,比如“歼10”和“歼11”从字面上看很接近,只有一个字符不同,Jaro-Winkler距离非常很高,但两者表示的是完全独立的两种装备。
基于以上原因,需要一种基于改进Jaro-Winkler距离算法的装备型号名称的模糊匹配方法,解决装备型号名称的数据清洗、转换问题。
字符串的模糊匹配处理更多的是用在模糊查询上,因而对模糊匹配的精确性要求不高,仅需要近似匹配即可。魏方征在专利《关键字模糊匹配方法及装置》(申请号201410722475.1)中是采用通过剔除干扰字符的方式实现模糊匹配。曾红在专利《字符串模糊匹配方法及装置》(申请号201610343584.1)中是通过获取源文本和各个目标文本匹配的字符数量来计算匹配度,无法解决前述提出的问题。叶亚明、王威振在专利《字符串匹配系统及方法》(申请号201410011078.3)中将字符串分词为词组并标注是否为关键维度来计算字符串的匹配度,无法解决前述提出的问题。
发明内容
本发明的目的在于提供一种模糊匹配中文装备名称的方法,通过对中文装备名称表示方法进行分析,对Jaro-Winkler距离算法进行改进,实现对装备名称脏数据的清洗转换。
实现本发明目的技术解决方案为:一种装备型号名称的模糊匹配方法,包括以下步骤:
步骤1,根据装备型号名称特点,将标准装备型号名称进行扩充,同一个名称扩充为3-4种常见表示形式;
步骤2,将待匹配装备型号名称与数据字典中所有扩充的装备型号名称进行匹配,依次计算改进Jaro-Winkler距离;Jaro-Winkler距离是测量两个字符串序列之间编辑距离的度量,Jaro和Winkler是两个提出者的名字。
步骤3,从所有改进Jaro-Winkler距离中选取最大值,与阈值进行比较,大于阈值则表示与扩充装备型号名称的原始型号名称匹配,否则为不匹配,需要人工干预或考虑扩充数据字典。例如对于匹配结果小于指定阈值的装备名称,需要人工判断属于已有装备名称还是新的装备名称,如果是新的装备名称需要将其增加到数据字典中。
步骤1包括如下步骤:
步骤1-1,通过分析装备名称的表现形式,构建装备名称转换规则。读取数据库中的装备型号名称字典表,将每一原始装备型号名称扩充为常见的表现形式,例如“歼10”扩充为“歼10”、“J10”、“歼十”、“J十”共四种表现形式,即利用汉字、汉字的拼音首字母和阿拉伯数字和数字的汉字表现形式进行交叉组合;因为一级汉字是按照拼音排序的,从汉字的机内码中取出区码和位码,根据区码和位码的范围,能获取到汉字的拼音首字母;其他非常用汉字编码按笔画排序,通过建立一一对应的汉字编码与拼音首字母对照表,能够实现汉字到拼音首字母的转换;将装备名称的汉字转换为拼音首字母。
对于装备名称中的数字建立与中文大写数字对照关系,转换成中文大写数字。
步骤1-2,将原始装备型号名称与扩充后的装备型号名称进行对应存储,并建立对照关系。
步骤2包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711202912.7/2.html,转载请声明来源钻瓜专利网。