[发明专利]航班保障数据的清理方法在审

专利信息
申请号: 201710273945.4 申请日: 2017-04-25
公开(公告)号: CN107025301A 公开(公告)日: 2017-08-08
发明(设计)人: 金海燕;李喻蒙;秦娟娟;王彬;王磊;黑新宏 申请(专利权)人: 西安理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安弘理专利事务所61214 代理人: 燕肇琪
地址: 710048*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 航班 保障 数据 清理 方法
【权利要求书】:

1.航班保障数据的清理方法,其特征在于,包括以下步骤:

步骤1、对航班保障数据进行预处理;

首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;

步骤2、对停机位数据的相似重复记录进行清洗:

步骤2.1、创建排序关键字并计算停机位数据的键值;

步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;

步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。

2.根据权利要求1所述的航班保障数据的清理方法,其特征在于,所述步骤1中,对航班保障数据进行属性清洗具体分为:

(1)对与停机位信息无关的数据的处理:予以删除或者不予提取;

(2)对停机位数据中缺失值数据的处理:缺失值数据包括主属性缺失数据和非主属性缺失数据,将主属性缺失数据丢弃,从数据源中重新获取或推导得出非主属性缺失数据;

(3)对停机位数据中违反业务规则的数据的处理:通过与数据源校对,重新获取;

(4)对停机位数据中同一属性不同表现形式的数据的处理:设定唯一的表现形式。

3.根据权利要求1所述的航班保障数据的清理方法,其特征在于,所述步骤1中,采用箱型图法判断并剔除停机位数据中的异常值,具体过程为:

将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间,n为区间的个数,α为每个区间中停机位数据的个数,β为区间的大小:

其中,每个区间内的所有停机位数据均构成一个数据集,Dn表示编号为n的数据集;

分析停机位数据的分布特征,得到数据集A的数据集中域[i-j,i+j],其中,i-j为最小值数据集,即Min{D1,D2,…,Dn},i+j为最大值数据集,即Max{D1,D2,…,Dn};将[i-j,i+j]设为初始数据组,对初始数据组剔除离群值,得到非离群数据组[Q1-3×IQR,Q3+3×IQR],对[Q1-3×IQR,Q3+3×IQR]取非异常数据组,得到目标数据集[Q1-1.5×IQR,Q3+1.5×IQR],将目标数据集设为数据集B,其中Q1表示第一分位数,Q3表示第三分位数,IQR表示四分位间距IQR=Q3-Q1

4.根据权利要求3所述的航班保障数据的清理方法,其特征在于,所述步骤2.1的具体过程为:

抽取停机位数据的不同的属性作为不同的排序关键字;按照排序关键字对数据集B中的停机位数据的各个字段计算字段值,从而得到停机位数据的键值,停机位数据的键值,即为该停机位数据中字段值的集合。

5.根据权利要求4所述的航班保障数据的清理方法,其特征在于,所述步骤2.2具体为:

在数据集B中建立聚簇索引,按照停机位数据的键值,对数据集B中的停机位数据进行近邻排列,使得相似重复记录排列到邻近区域,得到数据集C。

6.根据权利要求5所述的航班保障数据的清理方法,其特征在于,所述步骤2.3的具体过程为:

数据集C中的每一个数据均构成一条记录,在数据集C上滑动可变大小的窗口,滑动过程中采用先进先出策略,窗口滑动时,设当前窗口中的记录是第1~N条记录,则接下来进入窗口的记录是第N+1条记录,将第N+1条记录与窗口内的第2~N条记录逐一进行相似度匹配,以此来检测第N+1条记录是否是重复记录,如果是重复记录,剔除该条记录,如不是重复记录,则继续向下滑动窗口,直到完成数据集C中所有记录的相似度匹配。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710273945.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top