[发明专利]一种用户画像方法及装置在审
申请号: | 201710675017.0 | 申请日: | 2017-08-09 |
公开(公告)号: | CN109389138A | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 张路;罗成;潘宣辰 | 申请(专利权)人: | 武汉安天信息技术有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 画像 训练数据集 标签 特征选择算法 原始训练数据 标签信息 反复迭代 分类结果 应用程序 启发式 分类 | ||
本发明公开了一种用户画像方法,在原始训练数据没有标签的情况下利用应用程序名称的高启发式及特征选择算法来对用户进行分类,再通过反复迭代来调整分类结果,进而获取训练数据集的标签信息,从而构成带标签的训练数据集,最终实现了较精准的用户画像。本发明公开了一种用户画像装置。
技术领域
本发明属于大数据处理领域,尤其涉及一种用户画像方法及装置。
背景技术
用户画像是指通过各个维度,对用户特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息。用户画像是当今大多数互联网公司的数据根基。
对于画像问题,现有技术中最常见的方法有两种,一种有监督的分类算法,另一种则是无监督的聚类算法。
所谓“有监督”表示模型的训练数据集中,样本带有标签。此类现有技术中,训练数据集中的样本标签,通常来自已知数据,例如用户填写的注册信息、数据交换、数据爬虫等。而在很多场景下,已知标签的数据很难获取到,因此一旦缺乏这类已知标签的数据,则模型将束手无策,无法完成训练。比如,在安全领域,有些用户群体数量有限且比较隐蔽,一般是无法获得带标签的训练集,采用“有监督”的算法是无法完成训练的,不利于政府机关、安全企业等进行安全部署。
因此,现有技术中,存在另一种思路,就是所谓“无监督”算法,这类算法中聚类算法最为经典,该算法的训练数据集无需标签,此类算法不要求数据集带有标签,但使用无监督的聚类算法存在两个问题:第一,聚类算法的计算量在此场景下是巨大的,几乎不可能完成,因为目前市场上应用程序的数量数以千万,用户数量也是上亿,而聚类算法通常需要将这些数据同时全部加载方可计算,由此带来的是高昂的计算开销。第二,聚类算法不一定能达到理想效果。例如使用经典的k-means算法,其输出结果不一定能按照技术人员的期望来聚类,例如当需要对用户性别画像时,理想情况下,可将k设为2,使得将数据聚为男、女两类即可实现,但另一方面,如果画像的场景为将对用户的兴趣画像,判断用户是否爱玩游戏类app,理想情况下,将k设为2,使得将用户聚为两类,一类是爱玩游戏的,一类是不爱玩游戏的,但如果依然将k设为2,那么此时是否与性别画像场景冲突呢?两个不同场景,但同样是将用户聚为两类,那这两类用户到底是按性别划分,还是按爱好划分,这是个问题。因此,对于此类数据标签缺失的场景,无监督的聚类算法并非永久的灵丹妙药。
由此可见,在缺乏数据标签的情况下,现有的技术都无法达到良好的用户画像目的。
发明内容
本发明实施例的目的在于提供一种用户画像方法及装置,即使原始训练数据没有标签,也能实现较准确的用户画像。
本发明公开了一种用户画像方法,所述方法包括:
S01,预定义表征用户特性的程序名关键词;
S02,从无用户标签的用户中随机抽取若干组成第一训练子集,根据程序名关键词匹配第一训练子集中用户设备上的应用程序名列表,对用户进行初步分类;
S03,利用特征选择算法,计算预定义程序名与已初步分类用户类别的相关性,并在各类别中选出预设数目的相关度最高的程序名;
S04,根据各类别预设数目的相关度最高的程序名匹配第一训练子集中的用户设备上的应用程序名列表,对用户分类;
S05,迭代计算并判断当前迭代是否收敛;
S06,利用生成的带标签的第一训练子集进行模型训练,对用户进行画像。
进一步的,所述特征选择算法包括利用χ2统计量、信息增益、信息增益率、基尼指数进行特征选择。
进一步的,所述迭代计算的过程为:将S04的分类结果输入到S03,重新按照特征选择算法,计算预定义程序名与已分类用户类别的相关性,并在各类别中选出预设数目的相关度最高的程序名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉安天信息技术有限责任公司,未经武汉安天信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710675017.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于光谱特征的视觉追踪方法
- 下一篇:一种蝗虫计数方法及装置