[发明专利]地址归一化处理方法及装置在审
| 申请号: | 202011397609.9 | 申请日: | 2020-12-02 |
| 公开(公告)号: | CN112487122A | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | 王乐斐;梁相军 | 申请(专利权)人: | 电信科学技术第十研究所有限公司 |
| 主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/21 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭永丽 |
| 地址: | 710061*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 地址 归一化 处理 方法 装置 | ||
1.一种地址归一化处理方法,其特征在于,包括:
获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;
对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;
根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
2.根据权利要求1所述的方法,其特征在于,所述地址数据源包括运单地址数据源、网络地址数据源以及社会资源地址数据源;
所述运单地址数据源包括多个与目标地址对应的运单原始地址,所述网络地址数据源包括多个与目标地址对应的网络原始地址,所述社会资源地址数据源包括多个与目标地址对应的社会资源原始地址。
3.根据权利要求2所述的方法,其特征在于,若所述地址数据源为运单地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述运单地址数据源中每个运单原始地址进行字段抽取,得到与所述运单原始地址对应的运单省字段、运单市字段和运单详细地址字段;
依次对所述运单省字段和所述运单市字段的合法性和正确性进行验证,并在通过验证后对所述运单详细地址字段中包含的特殊字符进行处理,得到初步治理后的运单原始地址。
4.根据权利要求2所述的方法,其特征在于,若所述地址数据源为网络地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述网络地址数据源中每个网络原始地址进行字段抽取,得到与所述网络原始地址对应的网络经度字段、网络纬度字段和网络中文地址字段;
依次对从所述网络中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述网络中文地址字段中包含的特殊字符进行处理,得到初步治理后的网络原始地址。
5.根据权利要求2所述的方法,其特征在于,若所述地址数据源为社会资源地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述社会资源地址数据源中每个社会资源原始地址进行字段抽取,得到与所述社会资源原始地址对应的社会资源中文地址字段;
依次对从所述社会资源中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述社会资源中文地址字段中包含的特殊字符进行处理,得到初步治理后的社会资源原始地址。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述根据所述网爬经纬度,对所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库,包括:
对所述网爬经纬度进行纠偏处理,生成与所述网爬经纬度对应的标准坐标系经纬度;
基于所述标准坐标系经纬度确定的空间位置,分别统计相同的初步治理后的原始地址在所述地址数据源中出现的次数,得到各所述地址数据源中多个不同的初步治理后的原始地址的数据源置信度;
对各所述地址数据源中多个不同的初步治理后的原始地址进行整合以及去重合并后,将去重合并后的各初步治理后的原始地址的数据源置信度进行处理,得到去重合并后的各初步治理后的原始地址的整合置信度;
按照所述整合置信度从大到小的顺序对去重合并后的各初步治理后的原始地址进行排序,得到归一化后的标准地名地址库。
7.一种地址归一化处理装置,其特征在于,包括:
原始地址获取单元,用于获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;
地址初步治理单元,用于对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
经纬度网爬单元,用于对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;
地址深度治理单元,用于根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电信科学技术第十研究所有限公司,未经电信科学技术第十研究所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011397609.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阿胶酸奶的制作方法
- 下一篇:摄像头模组及电子设备





