[发明专利]用户性别预测方法、装置、介质及电子设备在审
申请号: | 201711405558.8 | 申请日: | 2017-12-22 |
公开(公告)号: | CN109961075A | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 陈岩;刘耀勇 | 申请(专利权)人: | 广东欧珀移动通信有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 523860 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 性别信息 预测 决策树模型 行为习惯 样本 电子设备 多维特征 样本分类 用户性别 样本集 构建 存储介质 时间采集 信息增益 阈值时 预设 采集 输出 申请 | ||
1.一种用户性别预测方法,其特征在于,包括:
采集已提供性别信息的用户的行为习惯的多维特征作为样本,并构建已提供性别信息的用户的行为习惯的样本集;
当所述特征的数量超过预设阈值时,根据特征对于样本分类的信息增益率对样本集进行样本分类,以构建出用户性别预测的决策树模型;
根据预测时间采集未提供性别信息的用户的行为习惯的多维特征作为预测样本;
根据预测样本和决策树模型预测未提供性别信息的用户的性别。
2.如权利要求1所述的用户性别预测方法,其特征在于,当所述特征的数量超过预设阈值时,根据特征对于样本分类的信息增益率对样本集进行样本分类,以构建出用户性别预测的决策树模型,包括:
生成决策树的根节点,并将所述样本集作为所述根节点的节点信息;
将所述根节点的样本集确定为当前待分类的目标样本集;
获取目标样本集内所述特征对于目标样本集分类的信息增益率;
根据所述信息增益率选取从所述特征中选取当前的划分特征;
根据所述划分特征对所述样本集进行划分,得到若干子样本集;
对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;
生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子节点是否满足预设分类终止条件;
若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述特征对于目标样本集分类的信息增益率的步骤;
若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括男和女。
3.如权利要求2所述的用户性别预测方法,其特征在于,根据所述划分特征对所述目标样本集进行划分,包括:
获取所述目标样本集中划分特征的特征值;
根据所述特征值对所述目标样本集进行划分。
4.如权利要求2所述的用户性别预测方法,其特征在于,根据所述信息增益率选取从所述特征中选取当前的划分特征,包括:
从所述信息增益中选取最大的目标信息增益率;
判断所述目标信息增益率是否大于预设阈值;
若是,则选取所述目标信息增益率对应的特征作为当前的划分特征。
5.如权利要求4所述的用户性别预测方法,其特征在于,所述用户性别预测方法还包括:
当目标信息增益率不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
6.如权利要求2所述的用户性别预测方法,其特征在于,判断子节点是否满足预设分类终止条件,包括:
判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
若是,则确定所述子节点满足预设分类终止条件。
7.如权利要求2-6任一项所述的用户性别预测方法,其特征在于,获取目标样本集内所述特征对于目标样本集分类的信息增益率,包括:
获取所述特征对于目标样本集分类的信息增益;
获取所述特征对于目标样本集分类的分裂信息;
根据所述信息增益与所述分裂信息,获取所述特征对于目标样本集分类的信息增益率。
8.如权利要求7所述的用户性别预测方法,其特征在于,获取所述特征对于目标样本集分类的信息增益率,包括:
获取目标样本分类的经验熵;
获取所述特征对于目标样本集分类结果的条件熵;
根据所述条件熵和所述经验熵,获取所述特征对于所述目标样本集分类的信息增益率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东欧珀移动通信有限公司,未经广东欧珀移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711405558.8/1.html,转载请声明来源钻瓜专利网。