[发明专利]一种基于XGBoost推荐算法的车辆销量预测方法在审
申请号: | 202010151726.0 | 申请日: | 2020-03-06 |
公开(公告)号: | CN111401941A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 吴黎兵;夏振厂;樊浩南;吴煜;陈俊杰 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06N20/20 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 xgboost 推荐 算法 车辆 销量 预测 方法 | ||
1.一种基于XGBoost推荐算法的车辆销量预测方法,其特征在于,包括以下步骤:
步骤1:获取原始数据集;
步骤2:对原始数据集进行处理,包括均值填充、XGBoost填充和”0”值填充操作,最后输出完整的数据集;
步骤3:针对输出完整的数据集进行特征提取;
采用one_hot编码获取车辆的类别特征,采用生成唯一配置获取车辆基础特征,采用基于时序差分滑动窗口方法获取车辆的时序特征,形成特征集供模型训练和预测使用;
步骤4:根据具体需求提取出对应数据特征,将数据特征输入到线性回归模型、GBDT、XGBoost和LSTM神经网络模型中;并从这四个预测模型中,根据预测精度和性能选出最好的模型XGBoost预测算法作为高精度车辆销量预测模型;
步骤5:将提取到的特征数据Xt={Xt1,Xt2,Xt3,...,XtT}输入到基于XGBoost模型中,实现对车辆销量的预测;
所述XGBoost模型为:
其中,是基于时间序列t的预测值,Xt={Xt1,Xt2,Xt3,...,XtT}是提取到的基于时间序列的特征集合,ρ是模型的参数集合,Remp(f)是经验风险;
对于线性回归预测和非线性回归的预测函数f分别为:
F(x,ρ)=ax+b (1)
F(x,ρ)=(a.ψ(x))+b (2)
对于数据在输入空间中是线性的数据,使用公式1进行线性回归预测;对于数据在输入空间中不是线性数据,通过核函数将数据映射到高维的特征空间去执行高维特征空间中的线性回归,从而将经验风险最小化,提高车辆销量的预测精度。
2.根据权利要求1所述的基于XGBoost推荐算法的车辆销量预测方法,其特征在于:步骤2中所述均值填充,首先定义R={Pj,Cj,Bj,CLj}表示一个组,j属于N表示组的序号,Pj表示销售省份ID,Cj表示销售城市ID,Bj表示销售车辆品牌ID,CLj表示销量车辆车型ID,R内字段都相同的数据表示为同一个组;在进行均值填充时,同一组内的数据按照获取需要填充数据的均值,其中Avgi表示组内均值,Sumi表示组内需要填充数据的的各个条目相加的总值,numi为组内条目数目。
3.根据权利要求1所述的基于XGBoost推荐算法的车辆销量预测方法,其特征在于:步骤2中所述XGBoost填充,对于同一组内的相同省份、相同汽车品牌和相同车型的数据,利用已知的基础数据输入到XGBoost算法中进行预测,然后将预测出的值,填入到缺失数据中,进行XGBoost填充。
4.根据权利要求1所述的基于XGBoost推荐算法的车辆销量预测方法,其特征在于:步骤2中所述”0”值填充,主要针对一些无法填充,但是如果删除该字段,影响模型提取特征和对预测结果产生影响的字段,采取“0”值填充的方式,将该字段填充为“0”。
5.根据权利要求1所述的基于XGBoost推荐算法的车辆销量预测方法,其特征在于:步骤3中所述采用one_hot编码获取车辆的类别特征,通过将原始的一维特征转化为多维特征,维度的大小取决于原始特征不同特征值的个数,从而将原始类别变量变为二进制向量的表示,在二进制向量中只有一位索引值是1,其他位置的值都是0,来提取车辆的类别特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010151726.0/1.html,转载请声明来源钻瓜专利网。