[发明专利]一种地址模糊匹配方法、系统及计算机设备有效
申请号: | 202010400129.7 | 申请日: | 2020-05-13 |
公开(公告)号: | CN111291099B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 马志豪;黄文辉;廖健;祝大裕;韩柳 | 申请(专利权)人: | 中邮消费金融有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 广州微斗专利代理有限公司 44390 | 代理人: | 唐立平 |
地址: | 511458 广东省广州市南沙区海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 模糊 匹配 方法 系统 计算机 设备 | ||
本发明涉及一种地址模糊匹配方法,包括如下步骤:S1、获取待匹配的地址数据集;S2、结合行政区划分将地址数据集分为多组地址数据子集;S3、对第一组地址数据子集进行K‑means聚类匹配得到多个地址簇;S4、结合多个地址簇得到候选地址集,判断当前候选地址集是否为空,如果为空,则对下一组地址数据子集进行K‑means聚类匹配得到多个地址簇,再转S5,否则将下一组地址数据子集与候选地址集进行两两匹配,将下一组地址数据子集中各地址数据归入相应的地址簇中,再转S5;S5、对连续两组地址数据子集的匹配结果进行合并,判断是否所有地址数据子集均匹配完毕,如果是,则输出多个地址簇,否则转S4。本发明具有较低的性能损耗度。
技术领域
本发明涉及地址匹配技术领域,特别涉及一种地址模糊匹配方法、系统及计算机设备。
背景技术
中文地址模糊匹配算法可用来发现同一地址不同表述的地址集合,例如金融领域中可以用于发现同一地址集合,分析其存在欺诈风险的概率。现在对地址模糊匹配的做法大致有:
1、维护标准地址库,通过将输入地址与地址库比对,将地址转换为经纬度,并计算两个经纬度在地图上的距离作为地址相似度的标准。由于标准地址库数据量过大,在进行比对时会消耗大量资源,而且比对未经标准化的地址时也会造成误差,不太适用大规模地址、细粒度的匹配。
目前适用于大规模地址的模糊匹配算法较少,依赖人工维护标准地址库,基于经纬度无法精确定位楼栋信息、楼层及房间号,不适合海量、差异度小的地址匹配。
2、通过n折交叉匹配完成模型参数的训练,但是在大规模数据集下,n个地址的模糊匹配需要调用C(n,2)次,在千万级的数据量下对的消耗过大。利用分布式计算平台,例如spark平台的分布式计算方法可以在一定程度上降低对性能的消耗,但是仅仅靠分布式计算方式对性能的提升非常有限。
发明内容
基于此,有必要提供一种对性能消耗较低的地址模糊匹配方法、系统及计算机设备,以解决现有技术中进行大规模地址模糊匹配时,调用模糊匹配的次数较多,导致性能消耗非常大的技术问题。
本发明实施例一方面提供一种地址模糊匹配方法,包括如下步骤:
S1、获取待匹配的地址数据集,并对所述地址数据集进行预处理;
S2、结合行政区划分将所述地址数据集分为多组地址数据子集;
S3、对第一组所述地址数据子集进行K-means聚类匹配得到多个地址簇;
S4、结合多个地址簇得到候选地址集,判断当前候选地址集是否为空,如果为空,则对下一组地址数据子集进行K-means聚类匹配得到多个地址簇,然后转S5,如果不为空,则将下一组地址数据子集与所述候选地址集进行两两匹配,将下一组地址数据子集中各地址数据归入相应的地址簇中,得到更新后的地址簇,然后转S5;
S5、对连续两组地址数据子集的匹配结果进行合并,判断是否所有地址数据子集均匹配完毕,如果是,则输出多个地址簇,得到地址匹配结果,如果否,则转S4。
作为上述实施例的进一步改进,结合行政区划分将所述地址数据集中地址数据分为多组地址数据子集,具体为:
对所述地址数据集中地址数据进行各级行政区的标准化补全;
针对不同区域设定不同的地址描述规则,按所述地址描述规则对标准化补全后的地址数据进行地址切割,得到多个层级的地址要素;
按各级行政区对应的地址要素对所述地址数据集中地址数据进行分组,得到多组所述地址数据子集。
作为上述实施例的进一步改进,对所述地址数据集中地址数据进行各级行政区的标准化补全,具体为:按从高到低的顺序对所述地址数据中各级行政区进行标准化补全;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中邮消费金融有限公司,未经中邮消费金融有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010400129.7/2.html,转载请声明来源钻瓜专利网。