[发明专利]一种基于改进集成学习的机票价格预测方法在审

专利信息
申请号: 202211386150.1 申请日: 2022-11-07
公开(公告)号: CN115660735A 公开(公告)日: 2023-01-31
发明(设计)人: 王则林;张玮业;宗烜逸;周子杰 申请(专利权)人: 南通大学
主分类号: G06Q30/0202 分类号: G06Q30/0202;G06N20/20;G06F18/214
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 226019*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 集成 学习 机票价格 预测 方法
【说明书】:

发明涉及机票价格预测领域,尤其涉及一种基于改进集成学习的机票价格预测方法。解决了节假日机票价格预测准确度不高的问题。其技术方案为:包括以下步骤:S1:采集历史航班特征和价格序列;S2:对于价格,使用箱线法对异常值进行筛选删除,对于空值采用均值填充;S3:将节假日的价格数据作为少数类,正常时期的价格作为多数类;S4:将构造出的样本与原本样本合成;S5:选定KNN,XGBoost,RF作为基学习器,LR作为元学习器;S6:将步骤S4中的训练集作为输入,输入至步骤S5的每个基学习器中;S7:将测试集训练好的基学习器模型的输入。本发明的有益效果为:本发明具有比传统集成模型更好的效果。

技术领域

本发明涉及机票价格预测领域,尤其涉及一种基于改进集成学习的机票价格预测方法。

背景技术

集成学习是一种技术框架,按照不同的思路组合基础模型主要分为Bagging、Boosting、和Stacking模型这三种方式。Bagging是将不存在强依赖关系的个体学习器并行生成,Boosting是将存在强依赖关系的个体学习器串行生成新的强学习器。而Stacking是将异质的学习器模型进行组合,通过某种组合策略来确定最终强学习器。相较前两者而言,Stacking更灵活也更复杂。但Stacking的性能不是简单的将强学习器进行融合就能有较好的效果,不同的学习器组合会带来不同的效果。

在当今的社会背景下,民航逐渐称为现在主流的出行的方式之一。个体消费者由于没有准确的信息背景,很难对于机票的购买做出正确的选择。如果在这个过程中,通过对航班特征的分析,做出一个机票价格的预测模型,能给消费者一些参考依托,可以帮助消费者更好的选择,也可以方便民航公司提供更好的服务。

然而,现实预测中,由于节假日的存在,机票价格在当日会出现价格波动,而节假日本身的数据量远小于正常时间的数据量,却又不能简单的作为异常值删除。故而做出的预测精度不够。在对不平衡数据的处理上主要分为过采样和欠采样的方法。

(1)过采样:主动获取更多的比例少的样本数据。由于样本比例不均衡,在条件允许的情况下可以尝试获取占比少的类型的样本数据,也可以通过使用重复、自举或合成少数类过采样等方法(SMOTE)来生成新的稀有样品。直接简单复制重复的话,如果特征少,会导致过拟合的问题。经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本;

(2)欠采样:数据量足够时,可以通过保留比例小的样本数据和减少比例大的样本数据来平衡数据集。缺点是会丢失多数类中的一些重要信息。

发明内容

本发明的目的在于提供一种基于改进集成学习的机票价格预测方法;解决了节假日机票价格预测准确度不高的问题;具有比传统集成模型更好的效果。

本发明的思想为:以XGBoost和RF(随机森林)作为基学习器,LR作为元学习器,虽然在MAE上有较好的表现,但是却在模型的R2表现上甚至不如单一学习器的效果。而元学习器选取也对结果有着不同的影响。GBDT和XGBoost虽然作为单一学习器都比LR表现更好,但作为元学习器,LR不仅可以有效防止过拟合还能显著提升MAE和R2表现。本发明采用KNN+XGBoost+RF作为基学习器,LR作为元学习器,有着最优的模型表现。

为了实现上述发明目的,本发明采用技术方案具体为:一种基于改进集成学习的机票价格预测方法,包括以下步骤:

S1:采集历史航班特征和价格序列,包括日期、当时价格、起飞城市、飞行时间、落地城市、星期几、节假日、航空公司、航班号、起飞时间段、落地时间段、是否隔夜;

S2:将日期、飞行时间、星期几、节假日、航空公司、航班号、起飞时间段、落地时间段、是否隔夜进行独热编码处理;对于价格,使用箱线法对异常值进行筛选删除,对于空值采用均值填充;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211386150.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top