[发明专利]基于社交平台的数据挖掘方法及装置有效
申请号: | 201410645497.2 | 申请日: | 2014-11-10 |
公开(公告)号: | CN104317959B | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 陈韬;曹欢欢;罗立新 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;张永明 |
地址: | 100000 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 注册用户 新注册 社交平台 资讯 客户端 集合 标签字典 数据挖掘 兴趣模型 读取 关系信息 历史浏览 构建 匹配 标签 记录 | ||
1.一种基于社交平台的数据挖掘方法,其特征在于,包括:
获取资讯客户端上已注册用户的兴趣标签字典;
获取社交平台中与所述资讯客户端上已注册用户具有关注关系的第一对象,并读取所述已注册用户与所述第一对象之间的关系信息;
根据所述已注册用户具有关注关系的所述第一对象,确定与所述已注册用户对应的第一关注集合;
根据所述已注册用户的兴趣标签字典和所述第一关注集合,构建兴趣模型,其中,所述兴趣模型用于表征具有相同所述第一关注集合的所述已注册用户与兴趣标签的对应关系;
获取所述资讯客户端上新注册用户在社交平台中与其具有关注关系的第二对象,并读取所述新注册用户与所述第二对象之间的关系信息;
根据所述新注册用户具有关注关系的所述第二对象,确定与所述新注册用户的第二关注集合;
将所述第二关注集合与所述兴趣模型进行匹配,根据所述兴趣模型确定所述新注册用户的推荐兴趣标签;
其中,所述根据所述已注册用户的兴趣标签字典和所述第一关注集合,构建兴趣模型的步骤包括:
对所述第一关注集合进行筛选,得到与所述已注册用户对应的第三关注集合,其中,筛选方法至少包括:数据筛选法、指标筛选法、条件筛选法和信息筛选法;
通过所述第三关注集合对所述已注册用户进行匹配,生成已注册用户集合,其中,所述已注册用户集合包括拥有相同第三关注集合的所述已注册用户;
根据所述已注册用户集合中包含的所述已注册用户的所述兴趣标签字典,生成与所述已注册用户集合对应的用户集合标签字典。
2.根据权利要求1所述的方法,其特征在于,在所述获取资讯客户端上已注册用户的兴趣标签字典之前,所述方法包括:
获取推荐资讯;
从所述推荐资讯的内容提取所述推荐资讯的所述兴趣标签;
获取所述已注册用户的历史行为数据,其中,所述历史行为数据用于记录所述已注册用户对所述推荐资讯的操作行为;
根据所述历史行为数据,确定所述兴趣标签的标签权重值;
根据所述标签权重值,确定与所述已注册用户对应的所述兴趣标签字典。
3.根据权利要求1所述的方法,其特征在于,所述根据所述已注册用户集合中包含的所述已注册用户的所述兴趣标签字典,生成与所述已注册用户集合对应的用户集合标签字典的步骤包括:
获取所述资讯客户端上已注册用户的第一用户数量和所述已注册用户集合的第二用户数量;
根据标签权重值和所述第一用户数量,计算各个所述兴趣标签的权重分布平均值;
根据所述已注册用户集合中的所述已注册用户的所述标签权重值和所述第二用户数量,计算所述用户集合兴趣标签字典中的各个所述兴趣标签的集合权重平均值;
根据所述权重分布平均值和所述集合权重平均值,计算得出所述兴趣标签在所述用户集合兴趣标签字典中的已注册用户集合权重值;
依次将所述兴趣标签在所述用户集合兴趣标签字典中的所述已注册用户集合权重值与预先设定的噪声阈值进行比较;
当所述兴趣标签在所述用户集合兴趣标签字典中的所述已注册用户集合权重值大于预先设定的噪声阈值时,在所述用户集合标签字典中保留与所述已注册用户集合权重值对应的兴趣标签;
当所述兴趣标签在所述用户集合兴趣标签字典中的所述已注册用户集合权重值小于或等于预先设定的噪声阈值时,在所述用户集合标签字典中删除与所述已注册用户集合权重值对应的兴趣标签。
4.根据权利要求3所述的方法,其特征在于,所述将所述第二关注集合与所述兴趣模型进行匹配,根据所述兴趣模型确定所述新注册用户的推荐兴趣标签的步骤包括:
对所述第二关注集合进行筛选,得到与所述新注册用户对应的第四关注集合,其中,所述筛选方法至少包括:数据筛选法、指标筛选法、条件筛选法和信息筛选法;
将所述第四关注集合与所述第三关注集进行匹配,确定与所述新注册用户对应的所述已注册用户集合;
根据与所述新注册用户对应的所述已注册用户集合的所述用户集合标签字典,确定所述新注册用户的所述推荐兴趣标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410645497.2/1.html,转载请声明来源钻瓜专利网。