[发明专利]地区名称的标准化处理和清洗方法及系统在审
| 申请号: | 202211331439.3 | 申请日: | 2022-10-28 |
| 公开(公告)号: | CN115496037A | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 费振玉;单震;谢传家 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
| 主分类号: | G06F40/103 | 分类号: | G06F40/103;G06F40/242 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 潘悦梅 |
| 地址: | 214125 江苏省无锡市无锡经济开发区金融一街15号110*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 地区 名称 标准化 处理 清洗 方法 系统 | ||
1.一种地区名称的标准化处理和清洗方法,其特征在于,包括如下步骤:
基于国家行政部的行政区划分类标准,确定地区标准;
根据所述地区标准,得到每个省份、每个城市以及每个区县的别名集;
对于省级、城市级以及区县级的地区,按照笛卡尔乘积组合方式得到地区别名词典;
基于省级、城市级以及区县级的地区对应的地区别名词典,对重名地区的别名词典进行检测和消除后,对地区别名词典进行汇总,得到最终的地区别名词典系统;
基于所述最终的地区别名词典系统进行地区的标准化。
2.根据权利要求1所述的地区名称的标准化处理和清洗方法,其特征在于,所述行政区划分类标准包括行政区划代码和行政区划名称信息。
3.根据权利要求1所述的地区名称的标准化处理和清洗方法,其特征在于,所述别名集包括地区标准名称、地区常用名集以及地区曾用名集;
根据所述地区标准,得到每个省份、每个城市以及每个区县的别名集,包括如下步骤:
按照民政部行政区划分类标准,处理得到每个地区的标准名称;
处理得到每个地区的常用名集,包括去掉固定尾缀后得到一种简称、以及省级、城市级以及区县级的常用名;
处理得到每个地区的曾用名集,对于区划更名、区划撤销、区划新设立的情况,根据民政部公开的历年行政区划变更信息,处理得到每个地区的曾用名集;
处理得到每个地区的隶属关系,包括所属省份、所属城市,并按照编码方式记录;
处理每个地区的行政级别,包括省级、城市级和区县级,将省级记为1、城市级记为2、区县级记为3。
4.根据权利要求1所述的地区名称的标准化处理和清洗方法,其特征在于,对于省级地区,按照笛卡尔乘积组合方式得到地区别名词典,包括如下两种组合方式:
第一别名集:省份的标准名称
第二别名集:省份的常用名集和曾用名集;
对于城市级地区,通过如下排列组合方式进行组合:
城市(标准名称、常用名集和曾用名集)、所属省份(标准名称、常用名集和曾用名集)拼接城市(标准名称、常用名集和曾用名集)
其中,代表拼接;
别名集1:地市的标准名称;
别名集2:地市的常用名集和曾用名集;
别名集3:所在省标准名称地市的标准名称;
别名集4:所在省标准名称地市的常用名集和曾用名集;
别名集5:所在省简称集地市的标准名称;
别名集6:所在省简称集地市的常用名集和曾用名集;
对于区县级地区,通过如下排列组合方式进行组合:
区县(标准名称、常用名集和曾用名集)、所属省份(标准名称、常用名集和曾用名集)拼接城市(标准名称、常用名集和曾用名集)拼接区县(标准名称、常用名集和曾用名集)、所属城市(标准名称、常用名集和曾用名集)拼接区县(标准名称、常用名集和曾用名集)、所属省份(标准名称、常用名集和曾用名集)拼接区县(标准名称、常用名集和曾用名集)
别名集1:区县的标准名称
别名集2:区县的常用名集和曾用名集
别名集3:所在省标准名称所在市标准名称该区县的标准名称
别名集4:所在省简称集所在市简称集该区县常用名集和曾用名集
别名集5:所在市标准名称该区县标准名称
别名集6:所在市简称集该区县常用名集和曾用名集
别名集7:所在省标准名称该区县标准名称
别名集8:所在省简称集该区县常用名集和曾用名集。
5.根据权利要求1所述的地区名称的标准化处理和清洗方法,其特征在于,对于一个地区名称对应多个别名的地区,通过所述最终的地区别名词典系统将所述地区的各类地址信息进行匹配和标准化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211331439.3/1.html,转载请声明来源钻瓜专利网。





