[发明专利]一种选择目标对象的方法和装置在审
申请号: | 201810436728.7 | 申请日: | 2018-05-09 |
公开(公告)号: | CN110472645A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 周默;李凯东;曹宇;花志祥 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11219 中原信达知识产权代理有限责任公司 | 代理人: | 张一军;张效荣<国际申请>=<国际公布> |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标对象 样本用户 负样本 用户集 正样本 权重 计算机技术领域 方法和装置 技术效果 数量确定 选择目标 预设 | ||
本发明公开了一种选择目标对象的方法和装置,涉及计算机技术领域。该方法的一个具体实施方式包括:获取样本用户集,将其中的样本用户分为两类,一类构成正样本用户集,另一类构成负样本用户集;确定每个所述正样本用户或所述负样本用户对于每个对象的预设行为的数量;根据所述数量确定每个所述对象的权重;根据所述权重从所述对象中选出目标对象。该实施方式达到选出的目标对象更符合预期和实际情况的技术效果。
技术领域
本发明涉及计算机技术领域,尤其涉及一种选择目标对象的方法、装置、电子设备和计算机可读介质。
背景技术
大数据环境下数据量快速的积累,要想分析出海量数据所蕴含的价值,筛选出有价值的数据十分重要。而数据筛选在整个数据处理流程中处于至关重要的地位。数据筛选的目的是为了提高之前收集存储的相关数据的可用性,更利于后期数据分析。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
数据量的增加及结构的复杂化,这使得面向大数据的数据筛选必然会耗费较多资源,因此要想快速准确筛选出有价值的数据选择合适的算法十分必要。而每个算法都有着自己使用所需要的环境,大数据环境下数据复杂度的增加提升了选择合适算法的困难;其次,大数据的巨大数据量也使得通过单一算法分析出有价值的数据越来越困难,选出符合预期目标数据的准确率有待提高。
发明内容
有鉴于此,本发明实施例提供一种选择目标对象的方法和装置,能够根据样本用户的分类结果确定目标对象的权重,根据对象的权重选出的目标对象结果更准确;使用目标对象作为训练样本构建出的分类模型更符合预期和实际情况。
为实现上述目的,根据本发明实施例的一个方面,提供了一种选择目标对象的方法,包括:获取样本用户集,将其中的样本用户分为两类,一类构成正样本用户集,另一类构成负样本用户集;确定每个所述正样本用户或所述负样本用户对于每个对象的预设行为的数量;根据所述数量确定每个所述对象的权重;根据所述权重从所述对象中选出目标对象。
可选地,根据所述权重从所述对象中选出目标对象之后,所述方法还包括:确定每个所述样本用户对于每个所述目标对象的预设行为的数量;根据每个所述样本用户对于每个所述目标对象的预设行为的数量构造特征向量;根据所述特征向量构造分类模型,其中所述分类模型用于对用户进行分类。
可选地,根据所述数量确定每个所述对象Ci的权重V(Ci)的公式包括:
其中,所述正样本用户或所述负样本用户Xn对于每个所述对象Ci的预设行为的数量为M(Xn|Ci)次,每个用户Yq对于每个所述对象Ci的预设行为的数量为M(Yq|Ci)次;n=1,2,3,…,N1,N1为所述正样本用户或所述负样本用户X的数量;i=1,2,3,…,N2,N2为所述对象C的数量;q=1,2,3,…,N3,N3为所有用户Y的数量。
可选地,获取样本用户集,将其中的样本用户分为两类,一类构成正样本用户集,另一类构成负样本用户集的方法包括:获取样本用户集,将其中的样本用户平均分为两类,一类构成正样本用户集,另一类构成负样本用户集。
可选地,根据所述特征向量构造分类模型的方法包括:根据所述特征向量,使用随机森林算法构造第一分类模型M1;根据所述特征向量,使用梯度提升树算法构造第二分类模型M2;则所述分类模型M为:M=λM1+(1-λ)M2,其中λ为预设系数,λ不大于1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810436728.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种室内外及建筑物的判断方法
- 下一篇:数据处理设备、数据处理方法及介质