[发明专利]一种地址模糊匹配方法、系统及计算机设备有效

申请号：	202010400129.7	申请日：	2020-05-13
公开（公告）号：	CN111291099B	公开（公告）日：	2020-08-14
发明（设计）人：	马志豪;黄文辉;廖健;祝大裕;韩柳	申请（专利权）人：	中邮消费金融有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06K9/62
代理公司：	广州微斗专利代理有限公司 44390	代理人：	唐立平
地址：	511458 广东省广州市南沙区海***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种地址模糊匹配方法系统计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种地址模糊匹配方法，包括如下步骤：S1、获取待匹配的地址数据集；S2、结合行政区划分将地址数据集分为多组地址数据子集；S3、对第一组地址数据子集进行K‑means聚类匹配得到多个地址簇；S4、结合多个地址簇得到候选地址集，判断当前候选地址集是否为空，如果为空，则对下一组地址数据子集进行K‑means聚类匹配得到多个地址簇，再转S5，否则将下一组地址数据子集与候选地址集进行两两匹配，将下一组地址数据子集中各地址数据归入相应的地址簇中，再转S5；S5、对连续两组地址数据子集的匹配结果进行合并，判断是否所有地址数据子集均匹配完毕，如果是，则输出多个地址簇，否则转S4。本发明具有较低的性能损耗度。

技术领域

本发明涉及地址匹配技术领域，特别涉及一种地址模糊匹配方法、系统及计算机设备。

背景技术

中文地址模糊匹配算法可用来发现同一地址不同表述的地址集合，例如金融领域中可以用于发现同一地址集合，分析其存在欺诈风险的概率。现在对地址模糊匹配的做法大致有：

1、维护标准地址库，通过将输入地址与地址库比对，将地址转换为经纬度，并计算两个经纬度在地图上的距离作为地址相似度的标准。由于标准地址库数据量过大，在进行比对时会消耗大量资源，而且比对未经标准化的地址时也会造成误差，不太适用大规模地址、细粒度的匹配。

目前适用于大规模地址的模糊匹配算法较少，依赖人工维护标准地址库，基于经纬度无法精确定位楼栋信息、楼层及房间号，不适合海量、差异度小的地址匹配。

2、通过n折交叉匹配完成模型参数的训练，但是在大规模数据集下，n个地址的模糊匹配需要调用C(n,2)次，在千万级的数据量下对的消耗过大。利用分布式计算平台，例如spark平台的分布式计算方法可以在一定程度上降低对性能的消耗，但是仅仅靠分布式计算方式对性能的提升非常有限。

发明内容

基于此，有必要提供一种对性能消耗较低的地址模糊匹配方法、系统及计算机设备，以解决现有技术中进行大规模地址模糊匹配时，调用模糊匹配的次数较多，导致性能消耗非常大的技术问题。

本发明实施例一方面提供一种地址模糊匹配方法，包括如下步骤：

S1、获取待匹配的地址数据集，并对所述地址数据集进行预处理；

S2、结合行政区划分将所述地址数据集分为多组地址数据子集；