[发明专利]一种用户年龄推测方法、装置以及存储介质在审
申请号: | 202111325147.4 | 申请日: | 2021-11-10 |
公开(公告)号: | CN114091585A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 李博;罗伟东 | 申请(专利权)人: | 深圳市和讯华谷信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20 |
代理公司: | 深圳市优赛朝闻专利代理事务所(普通合伙) 44454 | 代理人: | 谭育华 |
地址: | 518000 广东省深圳市南山区南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 年龄 推测 方法 装置 以及 存储 介质 | ||
本申请公开了一种用户年龄段推测方法、装置以及存储介质,用于根据安装的应用软件对用户的年龄进行推测。本申请方法包括:读取用户的已安装的应用软件的应用数据;根据所述应用数据生成对应的列表文本;根据所述列表文本中所记录的应用软件的使用时间点、使用时长以及使用频次对应用软件进行筛选,得到筛选后的列表文本;将筛选后的列表文本作为推测数据集输入至预选训练好的随机森林分类器中,所述随机森林分类器为通过样本数据集进行训练得到,所述样本数据集包括多个携带有用户年龄的应用软件的列表文本;通过所述随机森林分类器输出对所述用户的用户年龄的推测结果。
技术领域
本申请涉及数据处理领域,尤其涉及一种用户年龄推测方法、装置以及存储介质。
背景技术
随着移动互联网和移动互联网的普及和发展,应用软件的开发商及运营商越来越关心其产品的当前主要使用群体的信息,例如群体的年龄段分布、性别以及使用习惯等等,以便在后继阶段更有针对性地开发产品的功能,从而为客户提供更准确的商品或服务。
在实际中,不同年龄段的用户使用电脑、手机等智能设备时对应用软件的偏好不同,当用户在应用软件上产生交易时或者用户在下载应用软件后进行注册时,应用软件会要求用户输入注册信息,而现有技术中一般通过注册信息来获知用户的年龄,但是这种方法过于依赖用户的注册信息,用户在注册时可能输入的不是真实的信息或者当用户使用时没有产生交易,那么这种方法很难准确推测出用户的年龄。
发明内容
为了解决上述技术问题,本申请提供了一种用户年龄推测方法、装置以及存储介质。
本申请第一方面提供了一种用户年龄推测方法,所述方法包括:
读取用户的已安装的应用软件的应用数据;
根据所述应用数据生成对应的列表文本;
根据所述列表文本中所记录的应用软件的使用时间点、使用时长以及使用频次对应用软件进行筛选,得到筛选后的列表文本;
将筛选后的列表文本作为推测数据集输入至预选训练好的随机森林分类器中,所述随机森林分类器为通过样本数据集进行训练得到,所述样本数据集包括多个携带有用户年龄的应用软件的列表文本;
通过所述随机森林分类器输出对所述用户的用户年龄的推测结果。
可选的,所述根据所述列表文本中所记录的应用软件的使用时间点、使用时长以及使用频次对应用软件进行筛选包括:
从所述列表文本中剔除超过预设时间点未使用的应用软件对应的应用数据;
从所述列表文本中剔除使用时长未达到预设时长的应用软件对应的应用数据;
从所述列表文本中剔除使用频次未达到预设频次的应用软件对应的应用数据。
可选的,所述应用数据中包含有所述应用软件的描述信息,所述根据所述应用数据生成对应的列表文本包括:
提取所述描述信息中的关键词,并记录至列表文本中。
可选的,所述描述信息为根据应用软件在应用市场中的发布信息获得的信息。
可选的,所述随机森林分类器通过如下方法进行训练得到:
获取第一样本数据集,并将所述第一样本数据集输入至初始化的随机森林分类器中对初始化的随机森林分类器进行训练,所述第一样本数据集包括携带有用户年龄的应用软件的列表文本;
将所述第二样本数据集输入训练后的随机森林分类器中,对用户的年龄进行推测,并确定置信度达到预设置信度阈值的第三样本数据集;
对所述第三样本数据的置信度设置为最高;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市和讯华谷信息技术有限公司,未经深圳市和讯华谷信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111325147.4/2.html,转载请声明来源钻瓜专利网。