[发明专利]一种用于对用户特征进行分布式编码的方法和系统在审
申请号: | 201711446827.5 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108182235A | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 罗维 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 郭一斐;叶万东 |
地址: | 100086 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户特征 子文件 分布式编码 处理节点 用户特征文件 额外工作量 分布式特征 实际需求 运行效率 精准度 客户 受众 匹配 发送 人群 开发 维护 | ||
1.一种用于对用户特征进行分布式编码的方法,包括:
获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定多个用户特征并确定所述多个用户特征的总数量;
构建包括所述多个用户特征的特征文件,并基于预先设定的划分规则将所述特征文件划分为多个子文件;
对每个子文件中的用户特征进行内容扫描,以确定每个子文件中用户特征的数量;
基于用户特征的编码空间、所述多个用户特征的总数量和每个子文件中用户特征的子数量确定每个子文件中用户特征子集的编码子空间;以及
根据预先设定的处理规则,将每个子文件和相应的编码子空间发送给多个处理节点中相应的处理节点以由所述相应的处理节点对用户特征子集中的用户特征进行编码。
2.如权利要求1所述的方法,根据所述数据网络内所有用户的搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为,获取所述数据网络内所有用户的网络行为相关联的统计数据。
3.如权利要求2所述的方法,根据所述统计数据中用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为,进行特征提取,以确定多个用户特征。
4.如权利要求1所述的方法,将所述多个用户特征根据用户需求进行分类剔除,统计用户需求的用户特征的数量,作为用户特征的总数量。
5.如权利要求1所述的方法,将所述多个用户特征的特征文件基于哈希函数的划分规则,划分为对应于所述处理节点数量的多个子文件。
6.一种用于对用户特征进行分布式编码的系统,所述系统包括:
用户特征单元,用于获取与数据网络内所有用户的网络行为相关联的统计数据,并对所述统计数据进行特征提取以确定多个用户特征并确定所述多个用户特征的总数量;
特征文件构建单元,用于构建包括所述多个用户特征的特征文件,并基于预先设定的划分规则将所述特征文件划分为多个子文件;
特征数量确认单元,用于对每个子文件中的用户特征进行内容扫描,以确定每个子文件中用户特征的数量;
编码子空间确认单元,用于基于用户特征的编码空间、所述多个用户特征的总数量和每个子文件中用户特征的子数量确定每个子文件中用户特征子集的编码子空间;以及
处理节点分配单元,用于根据预先设定的处理规则,将每个子文件和相应的编码子空间发送给多个处理节点中相应的处理节点以由所述相应的处理节点对用户特征子集中的用户特征进行编码。
7.如权利要求6所述的系统,根据所述数据网络内所有用户的搜索点击行为、浏览网页行为和/或通过第三方合作获取的行为,获取所述数据网络内所有用户的网络行为相关联的统计数据。
8.如权利要求7所述的系统,根据所述统计数据中用户的host特征、n-gram特征、上网时间段、上网所属地域和/或浏览商品行为,进行特征提取,以确定多个用户特征。
9.如权利要求6所述的系统,将所述多个用户特征根据用户需求进行分类剔除,统计用户需求的用户特征的数量,作为用户特征的总数量。
10.如权利要求6所述的系统,将所述多个用户特征的特征文件基于哈希函数的划分规则,划分为对应于所述处理节点数量的多个子文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711446827.5/1.html,转载请声明来源钻瓜专利网。