[发明专利]一种用于对用户特征进行分布式编码的方法和系统在审

专利信息
申请号: 201711446827.5 申请日: 2017-12-27
公开(公告)号: CN108182235A 公开(公告)日: 2018-06-19
发明(设计)人: 罗维 申请(专利权)人: 北京奇虎科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;H04L29/08
代理公司: 北京工信联合知识产权代理有限公司 11266 代理人: 郭一斐;叶万东
地址: 100086 北京市西城区新*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用户特征 子文件 分布式编码 处理节点 用户特征文件 额外工作量 分布式特征 实际需求 运行效率 精准度 客户 受众 匹配 发送 人群 开发 维护
【说明书】:

发明公开了一种用于对用户特征进行分布式编码的方法和系统,通过将所有用户特征形成的用户特征文件划分为对应于处理节点的多个子文件,获取每个子文件中的用户特征数量和子文件的编号,将子文件分别发送相应的处理节点进行处理。采用分布式特征编码,可提升方案运行效率,降低开发和维护的额外工作量。客户可获得与自己实际需求相匹配的受众人群数据,精准度高,能充分满足客户的不同需求。

技术领域

本发明涉及互联网技术领域,并且更具体地,涉及一种用于对用户特征进行分布式编码的方法和系统。

背景技术

在互联网广告领域中,对投放广告的商家来说,大范围地向任意人群投放广告,存在成本太高,难以承受的问题,如何从大量的网民中,针对性地选出合适的人群,再根据不同人群的各个属性判断出需要投放的广告人群,是互联网广告市场发展急需解决的问题。

目前,采用人群定向方法向广告主提供比较有价值的人群是互联网广告领域中的一个重要环节,人群定向方法即是通过对用户特征数据的分析,找出与种子人群行为特征相类似的潜在目标人群的共同行为特征,利用机器学习模型,预测目标受众人群数据,帮广告主找到自己想要寻找的目标人群。其中所涉及的种子人群数据的规模最多在几百万量级,而非种子人群数据的规模在几亿量级,两者比例悬殊,在机器学习模型训练时,会使得内存使用上会有较大的浪费,增加了模型训练和预测的内存开销和时间开销。

同时,在一些机器学习工具中,需要对明文特征进行编码,然后才能做模型训练和预测,比如当前有1000万个不同特征,需要对它们用1到1000万进行编码,可能特征“访问过sports.sina.com.cn”被编码为11,而特征“搜索过旅游”被编码为999。

传统方案中,采用单机特征编码,即使用单台机器,对存放特征的文件进行遍历,同时依次编码。该方案存在以下2点不足:

1)如果特征文件特别大,比如有几十亿次的特征,那么方案运行较慢;

2)如果特征文件原本是存放在HDFS,同时要求编码后的特征文件也存放在HDFS上,那么用这种方法需要先从HDFS下载下数据,同时把编码后的特征文件上传到HDFS上,而这些会给开发和维护带来额外的工作。

发明内容

为了解决上述问题,提供一种用于对用户特征进行分布式编码的方法和系统。

根据本发明的一个方面,提供了一种用于对用户特征进行分布式编码的方法,包括:

获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定多个用户特征并确定所述多个用户特征的总数量;

构建包括所述多个用户特征的特征文件,并基于预先设定的划分规则将所述特征文件划分为多个子文件;

对每个子文件中的用户特征进行内容扫描,以确定每个子文件中用户特征的数量;

基于用户特征的编码空间、所述多个用户特征的总数量和每个子文件中用户特征的子数量确定每个子文件中用户特征子集的编码子空间;以及

根据预先设定的处理规则,将每个子文件和相应的编码子空间发送给多个处理节点中相应的处理节点以由所述相应的处理节点对用户特征子集中的用户特征进行编码。

较佳的,根据所述数据网络内所有用户的搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为,获取所述数据网络内所有用户的网络行为相关联的统计数据。

较佳的,根据所述统计数据中用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为,进行特征提取,以确定多个用户特征。

较佳的,将所述多个用户特征根据用户需求进行分类剔除,统计用户需求的用户特征的数量,作为用户特征的总数量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711446827.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top