[发明专利]地区名称的标准化处理和清洗方法及系统在审

专利信息
申请号: 202211331439.3 申请日: 2022-10-28
公开(公告)号: CN115496037A 公开(公告)日: 2022-12-20
发明(设计)人: 费振玉;单震;谢传家 申请(专利权)人: 浪潮卓数大数据产业发展有限公司
主分类号: G06F40/103 分类号: G06F40/103;G06F40/242
代理公司: 济南信达专利事务所有限公司 37100 代理人: 潘悦梅
地址: 214125 江苏省无锡市无锡经济开发区金融一街15号110*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 地区 名称 标准化 处理 清洗 方法 系统
【说明书】:

发明公开了地区名称的标准化处理和清洗方法及系统,属于数据处理技术领域,要解决的技术问题为如何实现多源异构背景下各种非标准化地区名称的标准化处理以及清洗。包括如下步骤:基于国家行政部的行政区划分类标准,确定地区标准;根据所述地区标准,得到每个省份、每个城市以及每个区县的别名集;对于省级、城市级以及区县级的地区,按照笛卡尔乘积组合方式得到地区别名词典;基于省级、城市级以及区县级的地区对应的地区别名词典,对重名地区的别名词典进行检测和消除后,对地区别名词典进行汇总,得到最终的地区别名词典系统;基于所述最终的地区别名词典系统进行地区的标准化。

技术领域

本发明涉及数据处理技术领域,具体地说是地区名称的标准化处理和清洗方法及系统。

背景技术

地址数据是公共地理框架数据的重要组成部分,是对地址信息的结构化描述与标识,是专业或社会经济信息与地理空间信息通过地理编码或地址匹配进行挂接的媒介与桥梁。数据处理是对数据进行分析和加工的技术过程,包括对不规范数据的清洗和统一标准化过程。

地址数据渗透在生活工作的方方面面,地区分析是各类商业分析、政务数据分析的重要分析维度和关注焦点,如分析各城市的网点数量、各区县市的网络零售规模、各地区的经济发展水平。虽然,国家有关部门也有相关的地区标准,但地区标准也存在不一致情况,如民政部的行政区划标准、统计局的统计用地区标准、各省市内部标准等,并且地区更名是常态情况,部门间标准也未能保持统一。同时,在电商大数据等互联网数据采集、政府各单位数据汇聚、各企业业务数据汇聚的过程中,由于没有统一的标准和命名方式,会出现各种地区标准、格式的地区名称以及地区的历史曾用名称,无法进行有效的统一。以电商大数据采集为例,有商家经营地、发货地、商品产地、目的地、所在地、经销地、生产地址、企业工商注册地、企业住所、企业登记机关等地址地区信息,格式非常多样,使用原始数据无法进行统一的地区分析。

如何实现多源异构背景下各种非标准化地区名称的标准化处理以及清洗,时需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足,提供地区名称的标准化处理和清洗方法及系统,来解决如何实现多源异构背景下各种非标准化地区名称的标准化处理以及清洗的技术问题。

第一方面,本发明一种地区名称的标准化处理和清洗方法,包括如下步骤:

基于国家行政部的行政区划分类标准,确定地区标准;

根据所述地区标准,得到每个省份、每个城市以及每个区县的别名集;

对于省级、城市级以及区县级的地区,按照笛卡尔乘积组合方式得到地区别名词典;

基于省级、城市级以及区县级的地区对应的地区别名词典,对重名地区的别名词典进行检测和消除后,对地区别名词典进行汇总,得到最终的地区别名词典系统;

基于所述最终的地区别名词典系统进行地区的标准化。

作为优选,所述行政区划分类标准包括行政区划代码和行政区划名称信息。

作为优选,所述别名集包括地区标准名称、地区常用名集以及地区曾用名集;

根据所述地区标准,得到每个省份、每个城市以及每个区县的别名集,包括如下步骤:

按照民政部行政区划分类标准,处理得到每个地区的标准名称;

处理得到每个地区的常用名集,包括去掉固定尾缀后得到一种简称、以及省级、城市级以及区县级的常用名;

处理得到每个地区的曾用名集,对于区划更名、区划撤销、区划新设立的情况,根据民政部公开的历年行政区划变更信息,处理得到每个地区的曾用名集;

处理得到每个地区的隶属关系,包括所属省份、所属城市,并按照编码方式记录;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211331439.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top