[发明专利]一种航空订票恶意行为的智能检测方法在审
申请号: | 201810981490.6 | 申请日: | 2018-08-27 |
公开(公告)号: | CN109345332A | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 李洋;张日崇;王尧;王玥;杨健;朱博康 | 申请(专利权)人: | 中国民航信息网络股份有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06Q50/30;G06K9/62 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 101318 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意行为 数据预处理 航空订票 智能检测 训练集 数据库 机器学习模型 调试参数 模型结合 模型训练 特征提取 提取特征 统一建模 原始数据 决策树 子步骤 调取 预测 | ||
1.一种航空订票恶意行为的智能检测方法,具体步骤为:
步骤1,从航空公司数据库调取原始数据,进行数据预处理并提取特征;
步骤2,选择训练集并进行机器学习模型GBDT梯度提升决策训练和调试参数;
步骤3,通过训练好的模型结合数据库对用户是否为恶意行为进行预测。
2.如权利要求1所述的方法,其特征在于,在所述步骤1中的数据预处理的方法包括,对原始查询数据进行筛选,过滤掉无用信息以提高运算速度,通过“字典”的形式将相同IP的查询数据归类到一起进行存储,每次查询的基本信息包含出发地、到达地、查询时间、查询时间转化为秒,存储到json文件中,以便之后特征提取快速查找使用;对于原始订单数据,提取出其中的IP信息,订单出票结果,订单时间信息,并将不同航空公司的查询数据进行提取合并,并将数据按照时间进行排序存储;所述提取特征包括地点特征,数量特征,时间特征,所述地点特征为:地点重合度、订单查询记录,所述数量特征为:当前生成订单频次、当前查询频次、一定间隔内查询频次,所述时间特征为:最近查询时间、订票生成与最近查询间隔,最近两次查询间隔。
3.如权利要求1所述的方法,其特征在于,在所述步骤2中,所述训练过程具体为:在梯度提升决策树的模型训练中,采用梯度提升的方法找到前一轮迭代得到强学习器的损失函数最小值,通过损失函数的负梯度进行拟合,所述梯度提升决策树实现拟合损失误差,实现回归和分类,找到回归树模型的弱学习器,让本轮的损失最小;所述找到回归树模型的弱学习器的具体过程为,首先,第1个弱学习器对训练样本进行学习,学习过程和决策树学习过程相同,决策树使用自顶向下递归分治法,并采用不回溯的贪心策略进行分裂;然后,当学习完成后,通过训练样本和当前强学习器计算残差,再利用第2个弱学习器对残差样本进行学习,依次进行下去,最终得到b个学习器,b为正整数;最终,加和这b个学习器的结果。
4.如权利要求3所述的方法,其特征在于,在所述步骤2中,在所述模型训练中首先进行训练集的选择,选择不同航空公司的数据集作为训练样本,通过提取不同航空公司的数据,在不同公司中取出正例和负例,最终保证提取总量相等的正负例以防止由于正负例不均导致的效果偏差,同时通过提取多个公司得数据进行训练。
5.如权利要求3所述的方法,其特征在于,在所述步骤2模型的调参过程中,首先从步长和迭代次数入手,选择一个较小的步长来网格搜索最好的迭代次数,找到了合适的迭代次数;对决策树最大深度和内部节点再划分所需最小样本数进行网格搜索,得到了最大深度;再对内部节点再划分所需最小样本数和叶子节点最少样本数一起调参,得到最小样本数和叶子节点最小样本数后,对子采样的比例进行网格搜索,以确定最佳模型;最后通过减半步长,最大迭代次数加倍增加模型的泛化能力。
6.如权利要求1所述的方法,其特征在于,在所述步骤3中,当订票数据出现,通过调取历史数据,提取该条数据的特征向量,然后调取训练好的梯度提升决策树模型对该数据进行预测,模型根据数据的特征向量将其分类为0或1,其中0表示该订单最终会出票,1表示该订单最终不会出票,通过分类结果对该数据实现预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航信息网络股份有限公司,未经中国民航信息网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810981490.6/1.html,转载请声明来源钻瓜专利网。