[发明专利]航班保障数据的清理方法在审
申请号: | 201710273945.4 | 申请日: | 2017-04-25 |
公开(公告)号: | CN107025301A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 金海燕;李喻蒙;秦娟娟;王彬;王磊;黑新宏 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安弘理专利事务所61214 | 代理人: | 燕肇琪 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 航班 保障 数据 清理 方法 | ||
1.航班保障数据的清理方法,其特征在于,包括以下步骤:
步骤1、对航班保障数据进行预处理;
首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;
步骤2、对停机位数据的相似重复记录进行清洗:
步骤2.1、创建排序关键字并计算停机位数据的键值;
步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;
步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。
2.根据权利要求1所述的航班保障数据的清理方法,其特征在于,所述步骤1中,对航班保障数据进行属性清洗具体分为:
(1)对与停机位信息无关的数据的处理:予以删除或者不予提取;
(2)对停机位数据中缺失值数据的处理:缺失值数据包括主属性缺失数据和非主属性缺失数据,将主属性缺失数据丢弃,从数据源中重新获取或推导得出非主属性缺失数据;
(3)对停机位数据中违反业务规则的数据的处理:通过与数据源校对,重新获取;
(4)对停机位数据中同一属性不同表现形式的数据的处理:设定唯一的表现形式。
3.根据权利要求1所述的航班保障数据的清理方法,其特征在于,所述步骤1中,采用箱型图法判断并剔除停机位数据中的异常值,具体过程为:
将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间,n为区间的个数,α为每个区间中停机位数据的个数,β为区间的大小:
其中,每个区间内的所有停机位数据均构成一个数据集,Dn表示编号为n的数据集;
分析停机位数据的分布特征,得到数据集A的数据集中域[i-j,i+j],其中,i-j为最小值数据集,即Min{D1,D2,…,Dn},i+j为最大值数据集,即Max{D1,D2,…,Dn};将[i-j,i+j]设为初始数据组,对初始数据组剔除离群值,得到非离群数据组[Q1-3×IQR,Q3+3×IQR],对[Q1-3×IQR,Q3+3×IQR]取非异常数据组,得到目标数据集[Q1-1.5×IQR,Q3+1.5×IQR],将目标数据集设为数据集B,其中Q1表示第一分位数,Q3表示第三分位数,IQR表示四分位间距IQR=Q3-Q1。
4.根据权利要求3所述的航班保障数据的清理方法,其特征在于,所述步骤2.1的具体过程为:
抽取停机位数据的不同的属性作为不同的排序关键字;按照排序关键字对数据集B中的停机位数据的各个字段计算字段值,从而得到停机位数据的键值,停机位数据的键值,即为该停机位数据中字段值的集合。
5.根据权利要求4所述的航班保障数据的清理方法,其特征在于,所述步骤2.2具体为:
在数据集B中建立聚簇索引,按照停机位数据的键值,对数据集B中的停机位数据进行近邻排列,使得相似重复记录排列到邻近区域,得到数据集C。
6.根据权利要求5所述的航班保障数据的清理方法,其特征在于,所述步骤2.3的具体过程为:
数据集C中的每一个数据均构成一条记录,在数据集C上滑动可变大小的窗口,滑动过程中采用先进先出策略,窗口滑动时,设当前窗口中的记录是第1~N条记录,则接下来进入窗口的记录是第N+1条记录,将第N+1条记录与窗口内的第2~N条记录逐一进行相似度匹配,以此来检测第N+1条记录是否是重复记录,如果是重复记录,剔除该条记录,如不是重复记录,则继续向下滑动窗口,直到完成数据集C中所有记录的相似度匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710273945.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:家用酒杯清洗存放一体机
- 下一篇:一种快速清洗鞋内部的电动刷
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置