[发明专利]移动终端换机预测方法、装置、设备及可读存储介质有效
申请号: | 202010938689.8 | 申请日: | 2020-09-09 |
公开(公告)号: | CN112115991B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 王权;冯广辉;王雷;居燕峰;李福;朱坚;陆向东;林俊德 | 申请(专利权)人: | 福建新大陆软件工程有限公司 |
主分类号: | G06F18/2431 | 分类号: | G06F18/2431;G06F18/214;G06Q10/04 |
代理公司: | 福州市京华专利代理事务所(普通合伙) 35212 | 代理人: | 宋连梅 |
地址: | 350015 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 移动 终端 预测 方法 装置 设备 可读 存储 介质 | ||
1.一种移动终端换机预测方法,其特征在于,包括步骤:
S10:获取业务数据,构建RandomForst模型和XGBOOST模型,将样本在所述RandomForst模型和XGBOOST模型的叶子节点位置变换成one-hot编码特征,生成第一特征;
S20:对所述第一特征进行特征组合,生成第二特征,并将所述第一特征及所述第二特征合并;
RandomForst和XGBOOST分别构建多棵树,样本在每棵树的叶子节点的位置转化成one-hot编码,将one-hot编码合并成一个大的编码向量,对合并的大的编码向量做特征组合,捕捉这两种集成框架生成的向量之间的关系,增强向量特征的表征能力;特征组合采用两两组合的方式,特征之间采用加法组合和乘法组合;
S30:采用集成过滤法对合并后的特征进行选择,剔除表征能力差的特征;
采用集成过滤法对合并后的特征进行选择的过程为:
将样本划分为N份,取其中N-1份样本,重复N次,获得N份新的样本,设定预获取变量的数量阈值m;所述变量为样本的原始数据的特征变量;
构建特征重要性评估指标:比率-卡方检验及方差-F检验;
对划分的N份样本,计算比率-卡方检验和方差-F检验的均值,保留每份样本前m个重要的特征,取N份特征集合的交集作为模型的输入特征;
所述比率-卡方检验的公式为:
其中,p1代表正类的比例,p2代表负类的比率,代表卡方检验的公式,A代表列联表的真实值,T代表预测值;Rate_χ代表重要性评估指标;α和β均代表超参数,且α+β=1;
所述方差-F检验的公式为:
其中,xi代表特征样本值,代表特征样本均值,s1代表特征样本方差,s2代表目标方差;Var_F代表方差的F检验值;α1和β1均代表超参数,且α1+β1=1;n代表样本数量;
S40:构建样本权值函数,并对模型损失函数进行优化;
构建样本权值函数的过程为:计算多数类与少数类的数量比值a;计算每个少数类样本和全部样本的余弦相似度,选择前预设个最相似的样本,计算这些样本中少数类的比例记为bi,确定少数类的样本权重wi=abi,多数类样本权重为1;
对样本采取有放回抽样,并且对全部特征进行无放回抽样,构建多个新的样本数据集,对每一份数据集都重复步骤S10至S40的优化策略,拟合所述RandomForst模型和XGBOOST模型,采用投票选择的方式确定最终的判别结果;
S50:基于bagging框架来构建逻辑回归随机森林模型,通过所述逻辑回归随机森林模型进行移动终端的换机预测。
2.根据权利要求1所述的移动终端换机预测方法,其特征在于,步骤S10包括:
S11:对原始数据进行清洗、缺失值插补、异常值剔除;
S12:采用交叉验证法和嵌入特征法构建RandomForst模型以及XGBOOST模型;
S13:利用RandomForst模型以及XGBOOST模型对原始数据进行预测,预测每一个样本在各自RandomForst模型以及XGBOOST模型的叶子节点的位置;
S14:根据样本在RandomForst模型以及XGBOOST模型叶子节点的位置,构建多个one-hot向量,然后将多个one-hot向量合并成一个新的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建新大陆软件工程有限公司,未经福建新大陆软件工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010938689.8/1.html,转载请声明来源钻瓜专利网。