[发明专利]一种地址解析、匹配的方法及装置在审
申请号: | 201810876680.1 | 申请日: | 2018-08-03 |
公开(公告)号: | CN109033086A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 卢翠兰;章磊;李翔宇 | 申请(专利权)人: | 银联数据服务有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 201201 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址解析 匹配地址 行政区 匹配 解析 地址库 字段 地址匹配技术 相似度匹配 地址要素 组合规则 规范化 词典库 分层 | ||
本发明涉及地址匹配技术领域,尤其涉及一种地址解析、匹配的方法及装置。本发明实施例公开了一种地址解析、匹配的方法,包括:获取待匹配地址;根据行政区分层词典库,将所述待匹配地址解析为第一地址和第二地址;其中,所述第一地址为具有行政区信息的字段;所述第二地址为不具有行政区信息的字段;对所述第一地址进行规范化处理;根据地址要素关键词与组合规则,解析所述第二地址中的各地址要素,并根据地址库对各地址要素进行规范化处理;将解析完成的待匹配地址与黑名单地址库进行相似度匹配。
技术领域
本发明涉及地址匹配技术领域,尤其涉及一种地址匹配的方法和设备。
背景技术
随着业务量的增长,企业积累了海量的地址信息。地址信息可应用在商业活动的各个方面,如银行自动化审批中,需要将申请人的申请信息中的地址与黑名单地址库进行相似性匹配,作为判定申请信息的风险的辅助手段。但是由于人工填写地址容易出现重复、错别字及缺漏,输入的地址中地址文本的表达方式多样,导致地址录入标准不规范,直接进行相似度匹配会导致很大的误差。此外,由于地址专名较多,不规则的小区名、公司名等难以规范化,导致地址解析正确率低。
地址重复的问题很大概率是由录入方式导致的。现有的地址录入系统往往采取下拉选择三级行政区,再由客户或工作人员手工录入其余地址信息的方式。这种录入方式容易导致行政区重复录入问题。如,在下拉中选择了“广东省”“惠州市”“博罗县”后,再填入“惠州博罗城市花园A栋601”,后台会将地址表示成“广东省惠州市博罗县惠州博罗城市花园A栋601”。重复录入的行为会直接影响地址相似度匹配的结果。
地址信息冗余会导致地址表达的多样性问题。为了便捷,人们往往倾向于在不失指向性的情况下,省略一个或多个地址层级信息。另外,由于信息冗余,可以对同一地址使用不同的地址要素组合进行描述。比如,在地址“上海市浦东新区益丰路55弄春港丽园A栋601”中,四级行政区“张江镇”被省略了。而且,“益丰路55弄”与“春港丽园”实际上指向同一地址,因此该地址可表达为“上海市浦东新区益丰路55弄A栋601”或“上海市浦东新区春港丽园A栋601”。
上述问题,都会导致现有技术在地址解析和匹配的过程中,解析正确率较低或匹配召回率较低的问题,极大的影响了地址匹配的后续应用。
发明内容
本发明实施例提供的一种地址解析、匹配的方法及装置,用以解决现有技术中地址解析正确率低,地址匹配召回率低的问题。
本发明实施例提供一种地址匹配与解析的方法,所述方法包括:
获取待匹配地址;
根据行政区分层词典库,将所述待匹配地址切分为第一地址和第二地址;其中,所述第一地址为具有行政区信息的字段;所述第二地址为不具有行政区信息的字段;
对所述第一地址进行规范化处理,;
根据地址要素关键词与组合规则,解析所述第二地址中的各地址要素,并根据所述地址库对所述各地址要素进行规范化处理;所述地址库与所述行政区分层词典库不同。
本发明实施例提供的地址匹配方法及装置,通过根据行政区域的解析,以及对除行政区域以外的地址进行地址要素的解析,通过提高地址解析的正确率与规范化待匹配的地址,有效地解决了在地址匹配的过程中召回率较低的问题。
一种可能的实现方式,所述根据行政区分层词典库,将所述待匹配地址切分为第一地址和第二地址,包括:
按照行政区的层级级数依次匹配所述待匹配地址,确定解析成功的字段的行政区的级数,直至所述行政区的层级级数的最后一级;
将所述行政区的层级级数的第一级对应的字段至所述最后一级对应的字段之间的字段作为所述第一地址;所述待匹配地址中除所述第一地址之外的字段作为第二地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银联数据服务有限公司,未经银联数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810876680.1/2.html,转载请声明来源钻瓜专利网。