[发明专利]一种地区名称标准化处理和清洗方法及系统在审
| 申请号: | 202211186362.5 | 申请日: | 2022-09-27 |
| 公开(公告)号: | CN115422885A | 公开(公告)日: | 2022-12-02 |
| 发明(设计)人: | 费振玉;单震 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
| 主分类号: | G06F40/103 | 分类号: | G06F40/103;G06F40/242;G06F40/205 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 冯春连 |
| 地址: | 214125 江苏省无锡市无锡经济开发区金融一街15号110*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 地区 名称 标准化 处理 清洗 方法 系统 | ||
发明公开一种地区名称标准化处理和清洗方法,涉及数据处理技术领域,包括:使用行政区划分类标准作为地区标准;根据地区标准,获取每个省份、地市、区县的别名集,所述别名集包括标准名称、常用名称子集、曾用名称子集,并对每个地区之间的隶属关系、行政级别进行处理和记录;针对省份、地市、区县的别名集和隶属关系进行组合,得到别名词典;检测别名词典,消除别名词典中的相同名称,得到最终别名词典。本发明还公开一种地区名称标准化处理和清洗系统,其与前述方法相结合,建立别名词典,实现多源异构背景下各种非标准化地区名称的快速标准化处理和清洗,提升地址数据的规范性和质量。
技术领域
本发明涉及数据处理技术领域,具体的说是一种地区名称标准化处理和清洗方法及系统。
背景技术
地址数据是公共地理框架数据的重要组成部分,是对地址信息的结构化描述与标识,是专业或社会经济信息与地理空间信息通过地理编码或地址匹配进行挂接的媒介与桥梁。数据处理是对数据进行分析和加工的技术过程,包括对不规范数据的清洗和统一标准化过程。
地址数据渗透在生活工作的方方面面,地区分析是各类商业分析、政务数据分析的重要分析维度和关注焦点,如分析各地市的网点数量、各区县市的网络零售规模、各地区的经济发展水平。虽然,国家有关部门也有相关的地区标准,但地区标准也存在不一致情况,如民政部的行政区划标准、统计局的统计用地区标准、各省市内部标准等,并且地区更名是常态情况,部门间标准也未能保持统一。同时,在电商大数据等互联网数据采集、政府各单位数据汇聚、各企业业务数据汇聚的过程中,由于没有统一的标准和命名方式,会出现各种地区标准、格式的地区名称以及地区的历史曾用名称,无法进行有效的统一。以电商大数据采集为例,有商家经营地、发货地、商品产地、目的地、所在地、经销地、生产地址、企业工商注册地、企业住所、企业登记机关等地址地区信息,格式非常多样,使用原始数据无法进行统一的地区分析。
因此,对于地区分析,需要解决地区标准化清洗的问题。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种地区名称标准化处理和清洗方法及系统。
首先,本发明的一种地区名称标准化处理和清洗方法,解决上述技术问题采用的技术方案如下:
一种地区名称标准化处理和清洗方法,包括如下步骤:
S1、使用行政区划分类标准作为地区标准;
S2、根据地区标准,获取每个省份、地市、区县的别名集,所述别名集包括标准名称、常用名称子集、曾用名称子集,并对每个地区之间的隶属关系、行政级别进行处理和记录;
S3、针对省份、地市、区县的别名集和隶属关系进行组合,得到别名词典;
S4、检测别名词典,消除别名词典中的相同名称,得到最终别名词典。
可选的,执行步骤S2,根据地区标准,处理得到每个省份、地市、区县的别名集,并对每个地区之间的隶属关系、行政级别进行处理和记录,具体操作包括:
S2.1、根据地区标准,得到每个省份、地市、区县的标准名称;
S2.2、根据省份、地市、区县的标准名称,获取其常用名称,保存在地区常用名称子集中;
S2.3、根据省份、地市、区县的标准名称,获取其历史曾用名,保存在地区曾用名称子集中;
S2.4、对每个地区之间的隶属关系进行编码记录,同时,对每个地区之间的行政级别进行标记记录。
可选的,执行步骤S3的具体操作包括:
S3.1、针对省份的标准名称、省份的常用名称子集与曾用名称子集分别生成别名词条,并保存在别名词典中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211186362.5/2.html,转载请声明来源钻瓜专利网。





