[发明专利]性别分类模型的生成方法、性别填充方法、终端及存储介质在审
申请号: | 201711176286.9 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107886366A | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 黄程波 | 申请(专利权)人: | 深圳市金立通信设备有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 深圳市精英专利事务所44242 | 代理人: | 林燕云 |
地址: | 518000 广东省深圳市福田区深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 性别 分类 模型 生成 方法 填充 终端 存储 介质 | ||
1.一种性别分类模型的生成方法,其特征在于,包括:
获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表;
根据所述目标矩阵表中的所述性别数据集筛选出所述多个业务的待训练用户,所述待训练用户包括在多个预设业务中均含有性别信息且性别信息相同的用户集合;
将所述待训练用户在所述目标矩阵表中的性别数据集和行为数据集转换为训练性别分类模型的特征数据集,其中所述特征数据集包括训练数据集和测试数据集;
根据所述训练数据集,采用决策树算法训练出所述性别分类模型;
根据算法调优参数和所述测试数据集交叉验证所述性别分类模型,得到最优性别分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表,具体包括:
获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成原始矩阵表,其中,所述性别数据集包括用户在每个所述业务中的性别信息,所述行为数据集包括用户在预设时间内点击每个所述应用程序的次数,所述原始矩阵表的行是用户ID号,列是对应用户在每个所述业务中的性别信息及其在预设时间内点击每个所述应用程序的次数;
对所述原始矩阵表进行数据清洗以生成所述目标矩阵表。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始矩阵表进行数据清洗以生成所述目标矩阵表,具体包括:
识别所述原始矩阵表中缺失率大于90%的应用程序;
从所述原始矩阵表中删除已识别出来的应用程序而生成所述目标矩阵表。
4.根据权利要求1所述的方法,其特征在于,所述多个业务包括有购机业务、售后业务、延保业务、阅读业务。
5.根据权利要求1所述的方法,其特征在于,所述多个预设业务的业务数至少占所述多个业务的总业务数的75%。
6.根据权利要求1所述的方法,其特征在于,所述决策树算法包括:CART算法、ID3算法、C4.5算法以及随机森林算法。
7.根据权利要求1所述的方法,其特征在于,所述算法调优参数包括:决策树的棵数、特征子集选择策略、属性选择度量、树的最大深度以及树的最大宽度。
8.根据权利要求1所述的方法,其特征在于,所述交叉验证的评估指标包括:精度、召回率以及整体准确率。
9.一种性别填充方法,其特征在于,包括:
获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表;
根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户,所述待填充用户包括在所述多个业务中没有性别信息的用户集合,所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合;根据所述行为数据集获取每个所述待填充用户和所述待矫正用户在每个所述应用程序中的点击次数作为特征向量;
根据所述特征向量,采用权利要求1-8任一项所述的最优性别分类模型来预测所述待填充用户的性别并将预测结果进行填充;
根据所述特征向量,采用所述最优性别分类模型预测所述待矫正用户的性别并结合所述待矫正用户的所述性别数据集,取其众数作为所述待矫正用户的最终性别并进行填充。
10.根据权利要求9所述的方法,其特征在于,所述将预测结果进行填充之后,还包括:
获取所述最优性别分类模型预测该用户为女性的整体准确率S1;
若所述预测结果为女性,所述预测结果的评分为S1;
若所述预测结果为男性,所述预测结果的评分为S2,所述S2等于1-S1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市金立通信设备有限公司,未经深圳市金立通信设备有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711176286.9/1.html,转载请声明来源钻瓜专利网。