[发明专利]一种面向基础地理信息异常数据的挖掘方法有效

申请号：	201410236076.4	申请日：	2014-05-30
公开（公告）号：	CN104035985B	公开（公告）日：	2017-07-07
发明（设计）人：	乔刚;米环;毛炜青;吴张峰;叶文凯;陆赛赛;邓讯;王伟;王聪;李海	申请（专利权）人：	同济大学;上海市测绘院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海智信专利代理有限公司31002	代理人：	吴林松
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向基础地理信息异常数据挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于地理信息系统统计分析应用领域，涉及一种面向基础地理信息异常数据的挖掘方法，特别是针对具有门牌号属性的海量基础地理数据的挖掘方法。

背景技术

随着经济社会和地理信息技术的高速发展，大量基础数据急剧增长，从海量数据中挖掘有用信息和异常数据成为当务之急。数据挖掘可以当作是一个在海量数据中探索数据间的关系、利用各种分析工具构建数据分析模型，并发现隐藏于数据之中的知识的过程。对海量基础地理数据进行分析，研究异常数据的挖掘方法，使异常对象从其他对象中自动分离出来，并可将异常数据提供给相关部门，检查该地理数据是否符合实际情况。

异常数据的挖掘方法主要包括基于统计的、基于距离的、基于偏离的和基于聚类的方法等。基础地理数据库中存在大量异常数据，由于数据来源不同或是数据测量和收集的失误，会存在异常数据，导致该数据与实际不符。依靠人工在海量数据中分离异常数据是不科学和不易实现的。客观上有必要根据基础地理信息数据的属性和分布特点，发明一种面向该类数据异常数据的挖掘方法。

发明内容

本发明的目的在于结合数据挖掘理论等相关知识，提供一种面向基础地理信息异常数据的挖掘方法，可以稳健和自动地挖据出其中隐含的异常数据。

为实现上述目的，本发明的解决方案是：一种面向基础地理信息异常数据的挖掘方法，主要是针对具有门牌号属性的地理数据，综合考虑其属性和地理分布特点。方案设计主要分为两部分，即挖掘道路异常数据和非道路异常数据，包括以下步骤：

首先由门牌号属性字段值提取道路数据，根据道路特点，将数据采用多项式方式拟合为最佳曲线，按照道路点到曲线的距离以及道路点与道路点的距离，判断该道路点是否异常；然后由门牌号属性字段提取非道路数据，按照非道路数据一般具有集聚性的特点，计算出其重心位置，根据非道路数据与重心点的距离，判断该非道路点是否异常；

经过第1步和第2步之后，得到异常数据的初步结果，由于得到的初步结果中包含与实际相符的数据，故利用相同属性数据具有集聚性的特点，进一步滤除该结果中的正常地理数据；得到最终异常数据结果。

换言之，一种面向基础地理信息异常数据的挖掘方法，针对基础地理信息数据按照其门牌号属性分为道路数据和非道路数据，分别挖掘异常数据；其中道路异常数据包括距离异常数据和密度异常数据，非道路异常数据则主要为距离异常数据。

进一步，包含以下步骤：

首先由门牌号属性字段值提取道路数据，判断该道路点是否异常；

然后由门牌号属性字段提取非道路数据，判断该非道路点是否异常；

经过前述步骤之后，得到异常数据的初步结果，进一步滤除该结果中的正常地理数据；得到最终异常数据结果。

所述的挖掘道路数据中的距离异常数据为：首先根据道路数据拟合出该道路曲线，然后计算所有点到该拟合曲线的平均距离的二倍，将其作为阈值，判断道路上的每一点到拟合曲线的距离与阈值的关系，若该距离大于阈值，则定义该点为异常点，否则，为正常点；循环所有道路数据之后，得到道路距离异常值。

所述的挖掘道路数据中的密度异常数据为：首先统计道路上任意相邻两点的距离，然后选定某一值作为阈值；对于道路上的每个点，判断在以此点为圆心，阈值为半径的圆的范围内，是否还存在与其属性相同的点，如果存在，定义该点为正常数据；若不存在，定义该点为异常点；以此为依据，挖掘道路密度异常数据。

所述的挖掘非道路数据中的距离异常数据为：首先将地理数据按照门牌号属性分组，使具有相同属性的数据分为一组，然后计算非道路数据各分组的重心坐标，之后计算组中所有点到该组重心的平均距离，并以平均距离的二倍作为阈值，判断点到重心的距离与阈值的关系；若所得距离小于阈值，定义该点为正常数据；若所得距离大于阈值，定义该点为异常数据；所有分组循环本操作之后，得到非道路数据的距离异常数据。

所述的过滤初步异常数据结果中的聚集点为：经过步骤1)和步骤2)之后，得到异常数据的初步结果，对于结果中的每一点，选定某一阈值，判断在以此点为圆心，阈值为半径的圆的范围内，是否还存在与其属性相同的点；如果存在，则在初步异常数据结果中去除该点；如果不存在，则在异常数据结果中保留该点，循环初步异常数据结果中所有点之后，最终得到异常数据的结果。

由于人为失误或是实际地理数据更新变化，数据库中存储的海量数据存在较多异常数据集，现有技术中仅依靠人工逐一检测异常值，不但浪费人力物力，而且降低工作效率。本发明的方法实现自动挖掘异常数据，在实际生产中具有重要的应用价值。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学;上海市测绘院，未经同济大学;上海市测绘院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410236076.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向基础地理信息异常数据的挖掘方法有效

专利文献下载