[发明专利]一种音乐网站客户流失预测方法在审
申请号: | 201811444669.4 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109784966A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 吴晟;刘叶;韩林峄 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62;G06F16/2458 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 客户流失 预测 训练模型 音乐网站 测试样本集 训练样本集 准确度 预处理 客户信息库 客户特征 历史数据 目标变量 随机森林 增量数据 算法 测试 分类 客户 优化 分析 | ||
本发明公开了一种音乐网站客户流失预测方法,属于分类预测领域。本发明首先通过对音乐网站中的客户信息库中的数据进行分析和预处理,确定客户特征和目标变量得到集成表格;然后把历史数据分为训练样本集和测试样本集,根据训练样本集来训练模型,根据测试样本集来对训练模型进行测试、评价和优化;最后,将增量数据利用训练模型来预测客户是否流失。本发明与现有方案相比,主要解决了现有方案在对客户流失预测时存在的灵活性不足、准确度低等现象,提高了利用随机森林算法对客户流失预测的灵活性和准确度。
技术领域
本发明涉及一种音乐网站客户流失预测方法,属于分类预测技术领域。
背景技术
客户流失预测是分类预测领域的一项基本研究,客户流失对利润增长造成的负面影响非常大,仅次于公司规模、市场占有率、单位成本等因素的影响,并且流失一个老客户比获得一个新客户对公司的损失更大,因此,建立合理的客户流失模型,进行客户流失类别预测,是解决问题的关键。
预测客户流失本质上可以看作一个二分类问题,可以选择的算法主要有逻辑回归、决策树、神经网络、支持向量机等等。决策树这种算法容易过拟合,一般可以利用剪枝,交叉验证或者随机森林的方法来解决这个问题,其中采用随机森林的方法更常见一些。随机森林即为训练多个决策树,然后利用多个决策树的结果共同预测某个样本的类别。
发明内容
本发明要解决的技术问题是针对现有方案的局限和不足,提供一种音乐网站客户流失预测方法,以解决现有方案在对客户流失预测时存在的灵活性不足、准确度低等现象,致力于提高利用随机森林算法对客户流失预测的灵活性和准确度。
本发明的技术方案是:一种音乐网站客户流失预测方法,首先通过对音乐网站中的客户信息库中的数据进行分析和预处理,确定客户特征和目标变量得到集成表格;然后把历史数据分为训练样本集和测试样本集,根据训练样本集来训练模型,根据测试样本集来对训练模型进行测试、评价和优化;最后,将增量数据利用训练模型来预测客户是否流失。
具体包括以下步骤:
Step1:抽取数据;以音乐网站当前月为标准抽取前三个月的用户信息作为历史数据A,抽取本月用户数据及后续新增的用户信息作为增量数据B;
Step2:对历史数据A及增量数据B进行探索性分析,主要是对数据进行缺失值和异常值分析;具体如Step2.1~Step2.2所示;
Step2.1:抽取的数据中可能存在性别、年龄为空值,以及年龄超过100岁的数据,将在此情况下的数据标记为D;
Step2.2:查找出标记数据D特征观测值中空值的个数,以及年龄的最大值、最小值;
Step3:对历史数据A及增量数据B进行数据预处理,得到新的历史数据A′及增量数据B′,具体如Step3.1~Step3.3所示;
Step3.1:数据清洗;丢弃性别为空的记录;年龄大于90岁小于10岁的记录替换为空值,丢弃年龄为空的记录;
Step3.2:特征规约;原始数据中特征太多,删除不相关、弱相关以及冗余特征,选择与模型相关的特征;
Step3.3:数据变换;将抽取的数据转换为“适当”的格式,以适应挖掘任务及算法的需要;
Step4:确定目标变量;在客户流失场景中,用“0”和“1”来标识某个用户是否流失,其中“1”表示用户流失,“0”表示用户未流失;
Step5:根据数据指标特征和目标变量,历史数据A′得到集成表格A′Tab,增量数据B′得到无目标变量的集成表格B′Tab,其中表格中每一行对应一个样本,每一列对应一个特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811444669.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种存储关键数据的区块链方法
- 下一篇:一种信息的推送方法和装置