[发明专利]一种根据统计数据关联度确定扩展用户的方法和系统在审
申请号: | 201711446826.0 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108038739A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 罗维 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 郭一斐;叶万东 |
地址: | 100086 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 统计数据 关联 确定 扩展 用户 方法 系统 | ||
1.一种根据统计数据关联度确定扩展用户的方法,所述方法包括:
获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定所有用户的用户特征;
接收对基础用户进行同类用户扩展的扩展请求,对所述扩展请求进行解析以确定扩展用户的设定数量和包括多个基础用户的正样本集;
根据所述数据网络内的所有用户和所述多个基础用户确定包括多个训练用户的负样本集,其中所述基础用户与训练用户的数量的比值小于或等于预定阈值;
对所述负样本集中的多个训练用户的用户特征进行特征分析,以确定用于对每个用户进行关联度计算的计算规则;
基于所述计算规则来计算所有用户中每个用户的关联度分值,根据所述关联度分值的降序顺序对所有用户进行排序以生成用户列表;以及
将去除了所述多个基础用户的用户列表中关联度分值最高的设定数量的用户确定为扩展用户。
2.如权利要求1所述的方法,所述方法还包括:将未去除所述多个基础用户的用户列表中关联度分值最高的设定数量的用户确定为扩展用户。
3.如权利要求1所述的方法,根据数据网络所有用户的网络行为离线数据的统计,提取所述所有用户的用户特征。
4.如权利要求3所述的方法,所述用户的网络行为包括:搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为。
5.如权利要求3或4所述的方法,所述用户特征包括:用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为。
6.一种根据统计数据关联度确定扩展用户的系统,所述系统包括:
用户特征单元,用于获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定所有用户的用户特征;
正样本集单元,用于接收对基础用户进行同类用户扩展的扩展请求,对所述扩展请求进行解析以确定扩展用户的设定数量和包括多个基础用户的正样本集;
负样本集单元,用于根据所述数据网络内的所有用户和所述多个基础用户确定包括多个训练用户的负样本集,其中所述基础用户与训练用户的数量的比值小于或等于预定阈值;
计算规则单元,用于对所述负样本集中的多个训练用户的用户特征进行特征分析,以确定用于对每个用户进行关联度计算的计算规则;
关联度计算单元,用于基于所述计算规则来计算所有用户中每个用户的关联度分值,根据所述关联度分值的降序顺序对所有用户进行排序以生成用户列表;以及
扩展用户单元,用于将去除了所述多个基础用户的用户列表中关联度分值最高的设定数量的用户确定为扩展用户。
7.如权利要求6所述的系统,所述系统还包括:将未去除所述多个基础用户的用户列表中关联度分值最高的设定数量的用户确定为扩展用户。
8.如权利要求6所述的系统,根据数据网络所有用户的网络行为离线数据的统计,提取所述所有用户的用户特征。
9.如权利要求8所述的系统,所述用户的网络行为包括:搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为。
10.如权利要求8或9所述的系统,所述用户特征包括:用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711446826.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种木屑收集装置
- 下一篇:适用于高寒地区的特种摊铺装备