[发明专利]一种基于混合特征选择算法的民航可疑订单特征提取方法有效
申请号: | 201810140489.0 | 申请日: | 2018-02-11 |
公开(公告)号: | CN108389109B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 林彤;丁建立;付丽洋;曾进进;曹卫东 | 申请(专利权)人: | 中国民航信息网络股份有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06Q50/26;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王学强 |
地址: | 101318 北京市顺义区后沙*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 特征 选择 算法 民航 可疑 订单 提取 方法 | ||
1.一种基于混合特征选择算法的民航可疑订单特征提取方法,其特征在于:所述的方法包括按顺序进行的下列步骤:
步骤一、首先将组成PNR订单的旅客信息表、PNR信息表、姓名表、航段状态变更表、航段状态表、航段表以及PNR出票信息表共七个表中的数据通过主键PNR记录编号和航段ID进行关联和整合,再将订票时间与起飞时间的时间间隔离散化为八个等级,将热门航段离散化为两个等级,最后将航段状态表中的舱位等级归一化为三个等级;
步骤二、首先通过专家经验从民航PNR订单数据的92个特征中排除掉与可疑订单必然不相关的特征,剩余28个特征;再将这28个特征进行整合和处理,得到12个特征作为选择的初始特征:即订单最后更新状态、订单中人员数量状态、航段总数、订单中是否包含常旅客、订单中是否包含贵宾、订单中是否包含高级贵宾、订单中是否包含大客户、订单中是否包含已婚成员、订票时间与起飞时间间隔、是否是国内航段、舱位等级以及是否是热门航线;
步骤三、计算上述初始特征的信息增益值,对其进行由高到低的排序并生成预选的特征子集;
步骤四、利用上述初始特征的信息增益值计算其增益率,选择增益率最大的初始特征作为最优划分属性特征,然后利用决策树C4.5算法评估上述预选的特征子集,选出使得对可疑订单识别率最高的具有m个特征的特征子集作为最优候选特征子集;
步骤五、通过序列前向浮动搜索算法对上述最优候选特征子集进行迭代而生成新的特征子集,并利用步骤四中的决策树C4.5算法评估每次迭代生成的新的特征子集,评估结果最优的特征子集即为最终选择的特征子集。
2.根据权利要求1所述的基于混合特征选择算法的民航可疑订单特征提取方法,其特征在于:在步骤三中,所述的计算上述初始特征的信息增益值,对其进行由高到低的排序并生成预选的特征子集的方法是:
首先计算12个初始特征的信息增益值,公式为:
其中,Ci表示类别,P(Ci)表示类别Ci出现的概率,P(t)表示特征t出现的概率,表示特征t不出现的概率,P(Ci|t)表示包含特征t时类别属于Ci的条件概率,表示不包含特征t时类别属于Ci的条件概率;
然后将12个初始特征的信息增益值降序排列;最后按照信息增益值由高到低并依据初始特征数量不同预选出12个特征子集。
3.根据权利要求1所述的基于混合特征选择算法的民航可疑订单特征提取方法,其特征在于:在步骤四中,所述的利用上述初始特征的信息增益值计算其增益率,选择增益率最大的初始特征作为最优划分属性特征,然后利用决策树C4.5算法评估上述预选的特征子集,选出使得对可疑订单识别率最高的具有m个特征的特征子集作为最优候选特征子集的方法是:
(1)划分选择:利用上述初始特征的信息增益值计算其增益率,选择增益率最大的初始特征作为最优划分属性特征,增益率的计算公式如下:
其中D为PNR订单的数据样本集合,V表示特征t具有V个可能的取值;
(2)剪枝处理:决策树C4.5算法选用后剪枝处理方法,通过上述最优划分属性特征先构建一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能使得可疑订单识别率提高,则将该子树替换为叶结点;
然后利用决策树C4.5算法评估步骤三中获得的12个预选的特征子集,选出使得对可疑订单识别率最高的具有m个特征的特征子集作为最优候选特征子集。
4.根据权利要求1所述的基于混合特征选择算法的民航可疑订单特征提取方法,其特征在于:在步骤五中,所述的通过序列前向浮动搜索算法对上述最优候选特征子集进行迭代而生成新的特征子集,并利用步骤四中的决策树C4.5算法评估每次迭代生成的新的特征子集,评估结果最优的特征子集即为最终选择的特征子集的方法是:
将12个初始特征集合用D(f1,f2,...,fn)表示,将步骤四中选出的最优候选特征子集用集合Sk表示,假定k个特征已经被选定到最优候选特征子集Sk中,其中k≤n,设定准则函数A(Sk)为集合Sk通过决策树C4.5算法评估得到的可疑订单识别率;序列前向浮动搜索算法具体步骤如下:
(1)找到使得准则函数A(Sk+sk+1)最大的集合{D-Sk}中的特征sk+1,将其加入到集合Sk中;因此,Sk+1=Sk+sk+1;
(2)找到集合Sk+1中的最不重要特征;如果sk+1是最不重要特征,即A(Sk+1-sk+1)≥A(Sk+1-si),1≤i≤k,将k+1赋给k,并返回步骤(1);否则,删除特征si构成新的集合S′k=Sk+1-si;如果k=2,将S′k赋给Sk,A(S′k)赋给A(Sk),并返回步骤(1),否则跳到步骤(3);
(3)找到S′k集合中的最不重要特征sj;如果A(S′k-sj)≤A(Sk-1),将S′k赋给Sk,A(S′k)赋给A(Sk),并返回步骤(1);否则,删除特征sj构成新的集合S′k-1=S′k-sj,将k-1赋给k;此时,如果k=2,将S′k赋给Sk,A(S′k)赋给A(Sk),并返回步骤(1),否则重复步骤(3);直到满足加入新特征后可疑订单识别率不再提高时停止迭代;
输出集合Sk作为最终选择的与可疑订单密切相关的特征子集,即最终得到7个特征的集合;因此,与可疑订单最相关的特征为Last_Cre_Num、Total_Seg_No、Time_Diff、PPl_Status、Is_Married、Pcctl_Code和Has_Cip,即与订单更新状态、航段总数、订票时间与起飞时间间隔、订单中人员数量状态、是否包含已婚成员、是否包含大客户以及是否包含常旅客密切相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航信息网络股份有限公司,未经中国民航信息网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810140489.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟三维试衣方法及系统
- 下一篇:面向无人值守商店的自助购物方法、系统