[发明专利]识别网络游戏中潜在高消费用户的方法及设备在审
申请号: | 201710640317.5 | 申请日: | 2017-07-31 |
公开(公告)号: | CN107688865A | 公开(公告)日: | 2018-02-13 |
发明(设计)人: | 王超;赵华蕾;伍涛 | 申请(专利权)人: | 上海恺英网络科技有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q30/02 |
代理公司: | 上海百一领御专利代理事务所(普通合伙)31243 | 代理人: | 陈贞健,姜伯炎 |
地址: | 200232 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 网络游戏 潜在 高消费 用户 方法 设备 | ||
技术领域
本申请涉及网络游戏分析领域,尤其涉及一种识别网络游戏中潜在高消费用户的方法及设备。
背景技术
当前,网络游戏运营平台方希望可以尽早地预判潜在的游戏高消费用户,提前进行相关的用户维护与关怀,促进潜在高消费用户向真正的游戏高消费用户转化。但是仅仅凭借运营人员的经验,缺乏相应的数据支持,不能保证找出来的潜在高消费用户的准确性,也不能尽可能地覆盖到所有的潜在高消费用户。
为提高预判结果的准确性,可使用数据分析技术对网络游戏用户的行为数据进行分析,得到网络游戏用户成为高消费用户的可能性,以此来确定是否对该用户进行维护与关怀,从而促进该用户向高消费用户的转化。
数据分析技术包含多种模型与方法,其中常用的可用于分类问题的模型算法包括决策树算法和逻辑回归算法等,但是这些算法在具体使用时都存在各自的问题,如决策树算法存在容易过拟合、泛化能力弱的问题;逻辑回归算法则容易出现欠拟合,由于其对数据的异常值十分敏感,对数据所抽取出的特征十分挑剔,因而导致最后预测值不准确等问题。
为加强数据分析算法的稳定性和预测能力,可使用集成学习来获得比单个算法更好的结果。Boosting、bagging和stacking是集成学习的三种主要方法。Boosting方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断要好。Boosting方法是一种可将弱学习器提升为强学习器的算法,其通过分步迭代(stage-wise)的方式来构建模型,在迭代的每一步构建的弱学习器都是为了弥补已有模型的不足。Boosting族算法的著名代表是AdaBoost,AdaBoost算法通过给已有模型预测错误的样本更高的权重,使得先前的学习器做错的训练样本在后续受到更多的关注的方式来弥补已有模型的不足。而梯度提升(Gradient boosting)算法采用的方式与AdaBoost算法不同,梯度提升方法在迭代的每一步构建一个能够沿着梯度最陡的方向降低损失(steepest-descent)的学习器来弥补已有模型的不足。经典的AdaBoost算法只能处理采用指数损失函数的二分类学习任务,而梯度提升方法通过设置不同的可微损失函数可以处理各类学习任务(多分类、回归、Ranking等),应用范围大大扩展。另一方面,AdaBoost算法对异常点(outlier)比较敏感,而梯度提升算法通过引入bagging思想、加入正则项等方法能够有效地抵御训练数据中的噪音,具有更好的健壮性。
基于梯度提升算法的学习器叫做GBM(Gradient Boosting Machine)。理论上,GBM可以选择各种不同的学习算法作为基学习器。现实中,用得最多的基学习器是决策树。为什么梯度提升方法倾向于选择决策树(通常是CART树)作为基学习器呢?这与决策树算法自身的优点有很大的关系。决策树可以认为是if-then规则的集合,易于理解,可解释性强,预测速度快。同时,决策树算法相比于其他的算法需要更少的特征工程,比如可以不做特征标准化,可以很好的处理字段缺失的数据,也可以不用关心特征间是否相互依赖等。决策树能够自动组合多个特征,它可以毫无压力地处理特征间的交互关系并且是非参数化的,因此你不必担心异常值或者数据是否线性可分,例如,决策树能轻松处理好类别A在某个特征维度x的末端,类别B在中间,然后类别A又出现在特征维度x前端的情况。不过,单独使用决策树算法有容易过拟合缺点,为解决此问题,可通过抑制决策树的复杂性、降低单棵决策树的拟合能力,再通过梯度提升的方法集成多棵决策树,最终能够很好地解决过拟合的问题。由此可见,梯度提升方法和决策树学习算法可以互相取长补短,是一对完美的搭档,结合形成的算法是GBDT(Gradient Boosting Decision Tree),即梯度提升树算法。
逻辑回归算法(Logistic Regression)是一种线性回归算法,它与多重线性回归实际上有很多相同之处,最大的区别就在于因变量不同。因此这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。这一家族中的模型形式基本上都差不多,区别就在于因变量,如果因变量是连续的,就是多重线性回归;如果因变量是二项分布,就是逻辑回归;如果因变量是Poisson分布,就是Poisson回归;如果因变量是负二项分布,就是负二项回归。
逻辑回归的因变量可以是二分类,也可以是多分类,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的逻辑回归。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海恺英网络科技有限公司,未经上海恺英网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710640317.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种门窗用的万能装夹具及切角机
- 下一篇:夹紧装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理