[发明专利]一种数据处理方法、装置及服务器有效
申请号: | 201810508765.4 | 申请日: | 2018-05-24 |
公开(公告)号: | CN108921587B | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 周忠 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/35 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允;肖丁 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 服务器 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息,所述点击对象为用户点击的信息的发布者;
对多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的兴趣偏好特征;
基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
2.根据权利要求1所述的方法,其特征在于,所述获取多个用户的点击对象的标识信息文本包括:
分别获取预设时间段内的多个用户的点击对象的标识信息;
将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本。
3.根据权利要求2所述的方法,其特征在于,所述将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本包括:
将每一用户预设时间段内的点击对象的标识信息按照点击时间先后按序排列;
将每一用户预设时间段内按序排列的点击对象的标识信息作为所述用户的点击对象的标识信息文本。
4.根据权利要求1所述的方法,其特征在于,所述基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群包括:
计算所述标识信息的词向量中每两个词向量之间距离;
选取词向量之间的距离最小的两个词向量;
判断所述距离最小的两个词向量之间的距离是否小于等于预设阈值;
当判断的结果为是时,将所述距离最小的两个词向量所对应的点击对象合并在同一点击对象群中;
计算所述距离最小的两个词向量的中心词向量;
计算所述中心词向量和未合并的点击对象的标识信息的词向量中每两个词向量之间的距离;
重复上述选取词向量之间的距离最小的两个词向量至计算每两个词向量之间的距离的步骤,至当前距离最小的两个词向量之间的距离是大于预设阈值,将当前合并得到的点击对象群作为所述至少一个点击对象群。
5.根据权利要求4所述的方法,其特征在于,所述词向量之间距离包括下述之一:
欧氏距离、余弦距离、曼哈顿距离。
6.根据权利要求1至5任一所述的方法,其特征在于,所述点击对象的标识信息至少包括下述之一:
点击对象的身份标识号、点击对象的网络协议地址、点击对象发布的信息身份标识号。
7.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
基于所述点击对象群中点击对象的点击分布信息之间的相似度,确定出异常点击对象群。
8.一种数据处理装置,其特征在于,所述装置包括:
标识信息文本获取模块,用于获取多个用户的点击对象的标识信息文本;其中,每一用户的点击对象的标识信息文本包括至少一个点击对象的标识信息,所述点击对象为用户点击的信息的发布者;
关联训练模块,用于对多个标识信息文本中的标识信息进行关联训练,得到多个标识信息文本中标识信息的词向量,所述标识信息的词向量表征点击所述标识信息所对应的点击对象的用户的兴趣偏好特征;
聚类分析处理模块,用于基于所述标识信息的词向量对所述标识信息所对应点击对象进行聚类分析处理,得到至少一个点击对象群。
9.根据权利要求8所述的装置,其特征在于,所述标识信息文本获取模块包括:
标识信息获取单元,用于分别获取预设时间段内的多个用户的点击对象的标识信息;
标识信息文本组合单元,用于将每一用户预设时间段内的点击对象的标识信息组合为所述用户的点击对象的标识信息文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810508765.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:内容投放方法及装置
- 下一篇:一种基于消费统计的广告推送系统