[发明专利]航班保障数据的清理方法在审
申请号: | 201710273945.4 | 申请日: | 2017-04-25 |
公开(公告)号: | CN107025301A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 金海燕;李喻蒙;秦娟娟;王彬;王磊;黑新宏 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安弘理专利事务所61214 | 代理人: | 燕肇琪 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 航班 保障 数据 清理 方法 | ||
技术领域
本发明属于数理统计和数据挖掘技术领域,涉及一种航班保障数据的清理方法。
背景技术
国内对于数据清洗的研究起步较晚,但是研究的范围广泛:指出数据清洗中的数据源主要有单数据源和多数据源,并且给出了单数据源和多数据源在实例层上错误记录的类别;从数据质量的角度出发,分析了建立基于规则库和方法库的可扩展数据清理框架的必要性;在数据清洗的方法和框架方面的研究,包括基于知识的相似重复记录清除方法、基于多种规则结合不同方法以流程方式完成清理任务的可重构数据清理框架、基于语义规则库的以自学习方式完成数据清理任务的开放式数据清理框架。
数据清理根据具体应用和不同数据采用相应的数据清理方法,数据分类后对应的清洗方法主要包括下列四种:1.缺失值的解决方法:大多数情况下,缺失值必须手工填入(即手工清理),当然,某些缺失值可以从本数据源或其它数据源推导出来,因此可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失值,从而达到清理的目的。2.错误值的检测及解决方法:用统计分析的方法识别可能的错误值或异常值,如偏差分析识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,或者使用不同属性间的约束、外部的数据来检测和清理数据。3.重复记录的检测及解决方法:数据库中属性值相同的记录被认为是重复记录。通过判断记录间的属性值是否相等来检测记录是否是重复数据,并采用消重的基本方法合并或者清除。4.不一致性主要表现在数据源内部及数据源之间,多数据源集成的数据可能有语义冲突,因此,针对该问题的检测及解决方法是可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,达到数据的一致性。
在民航机场业务中,需要对航班保障数据进行提纯和优化,虽然存在的多种通用的数据清洗理论和框架,由于业务领域的特殊性和行业保密性,且航班保障数据的数据量庞大,数据包含的信息量众多,对航班保障数据的相似重复记录进行检测困难,提纯和优化工作量大。
发明内容
本发明的目的是提供一种航班保障数据的清理方法,提高了航班保障数据的准确性和完整性,提高了检测航班保障数据的相似重复记录的效率。
本发明所采用的技术方案是,航班保障数据的清理方法,包括以下步骤:
步骤1、对航班保障数据进行预处理;
首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;
步骤2、对停机位数据的相似重复记录进行清洗:
步骤2.1、创建排序关键字,并计算停机位数据的键值;
步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;
步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。
步骤1中,对航班保障数据进行属性清洗具体分为:
(1)对与停机位信息无关的数据的处理:予以删除或者不予提取;
(2)对停机位数据中缺失值数据的处理:缺失值数据包括主属性缺失数据和非主属性缺失数据,将主属性缺失数据丢弃,从数据源中重新获取或推导得出非主属性缺失数据;
(3)对停机位数据中违反业务规则的数据的处理:通过与数据源校对,重新获取;
(4)对停机位数据中同一属性不同表现形式的数据的处理:设定唯一的表现形式。
步骤1中,采用箱型图法判断并剔除停机位数据中的异常值,具体过程为:
将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间,n为区间的个数,α为每个区间中停机位数据的个数,β为区间的大小:
其中,每个区间内的所有停机位数据均构成一个数据集,Dn表示编号为n的数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710273945.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:家用酒杯清洗存放一体机
- 下一篇:一种快速清洗鞋内部的电动刷
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置