[发明专利]一种地址解析、匹配的方法及装置在审
申请号: | 201810876680.1 | 申请日: | 2018-08-03 |
公开(公告)号: | CN109033086A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 卢翠兰;章磊;李翔宇 | 申请(专利权)人: | 银联数据服务有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 201201 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址解析 匹配地址 行政区 匹配 解析 地址库 字段 地址匹配技术 相似度匹配 地址要素 组合规则 规范化 词典库 分层 | ||
1.一种地址解析的方法,其特征在于,所述方法包括:
获取待匹配地址;
根据行政区分层词典库,将所述待匹配地址切分为第一地址和第二地址;其中,所述第一地址为具有行政区信息的字段;所述第二地址为不具有行政区信息的字段;
对所述第一地址进行规范化处理;
根据地址要素关键词与组合规则,解析所述第二地址中的各地址要素,并根据地址库对各地址要素进行规范化处理;所述地址库与所述行政区分层词典库不同。
2.根据权利要求1所述的方法,其特征在于,所述根据行政区分层词典库,将所述待匹配地址切分为第一地址和第二地址,包括:
按照行政区的层级级数依次解析所述待匹配地址,确定解析成功的字段的行政区的级数,直至所述行政区的层级级数的最后一级;
将所述行政区的层级级数的第一级对应的字段至所述最后一级对应的字段之间的字段作为所述第一地址;所述待匹配地址中除所述第一地址之外的字段作为第二地址。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一地址进行规范化处理,包括:
若确定所述第一地址中,存在与解析成功的层级地址的字段含义相同的重复字段,则删除所述重复字段;
若确定所述第一地址中存在缺失的行政区的层级级数,则根据解析成功的行政区与所述行政区分层词典库对所述第一地址进行行政区信息补全;
若确定所述第一地址中解析的行政区为已撤销行政区,则根据所述行政区分层词典库将所述已撤销行政区对应的字段更新为当前行政区对应的字段。
4.根据权利要求1所述的方法,其特征在于,根据地址要素关键词与组合规则,解析所述第二地址中的各地址要素,包括:
按照预设的地址要素的组合规则,依次对所述第二地址进行基于非贪婪规则的正向匹配;
若确定有解析成功的字段,则对解析成功的字段进行地址要素的标记;
将未完成解析的各字段,按照预设的地址要素的组合规则,依次进行基于非贪婪规则的正向匹配;
若仍存在未解析成功的各字段,则对所述未完成解析的各字段进行基于贪婪规则的逆向匹配,将确定的楼室号之前的字段标记为小区名地址要素。
5.根据权利要求1所述的方法,其特征在于,根据所述地址库对所述各地址要素进行规范化处理,包括:
根据所述地址库,查找到所述地址库中存储的第二地址的地址信息;
根据所述待匹配地址中的第二地址,确定所述待匹配地址中的第二地址中缺失的地址要素;
根据所述地址库中存储的第二地址对所述待匹配地址中的第二地址中缺失的地址要素进行补全。
6.一种地址匹配方法,其特征在于,适用于通过权利要求1至5任一项方法解析出的待匹配地址,所述方法包括:
根据待匹配地址中的第一地址,将黑名单地址库中的第一地址与所述待匹配地址中的第一地址相同的黑名单地址作为筛选后的黑名单地址;
将筛选后的黑名单地址中的第二地址与所述待匹配地址中的第二地址进行相似度匹配。
7.一种地址解析的装置,其特征在于,所述装置包括:
获取单元,用于获取待匹配地址;
处理单元,用于根据行政区分层词典库,将所述待匹配地址解析为第一地址和第二地址;其中,所述第一地址为具有行政区信息的字段;所述第二地址为不具有行政区信息的字段;对所述第一地址进行规范化处理;根据地址要素关键词与组合规则,解析所述第二地址中的各地址要素,并根据地址库对各地址要素进行规范化处理;所述地址库与所述行政区分层词典库不同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银联数据服务有限公司,未经银联数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810876680.1/1.html,转载请声明来源钻瓜专利网。