[发明专利]用户兴趣标签分类的方法及装置有效
申请号: | 201310501027.4 | 申请日: | 2013-10-22 |
公开(公告)号: | CN104572733B | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 王亮;孙拔群;李京生;冯扬;张娜;柳超;姜爱荣;李庆国;程刚 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户兴趣 标签分类 标签 活跃用户 站点数据 站点 关联关系 训练数据 二分类 新用户 第三方网站 互联网技术 标签转换 分解算法 开放平台 用户信息 第三方 应用 预测 | ||
本发明公开了一种用户兴趣标签分类的方法及装置,涉及互联网技术领域,能够解决开放平台的用户信息无法被第三方充分且准确利用的问题。本发明的方法包括:获取活跃用户的训练数据,训练数据包括活跃用户的第一站点数据以及活跃用户在第二站点中选择的用户兴趣标签;对第二站点兴趣标签进行二元标签转换,得到二分类器;根据用户兴趣标签以及二分类器,建立第一站点数据与第二站点兴趣标签之间的关联关系;通过二元分解算法以及该关联关系训练得到用户兴趣标签分类模型;根据新用户的第一站点数据以及用户兴趣标签分类模型,计算获得新用户在第二站点中的用户兴趣标签。本发明主要应用于第三方网站或应用的用户兴趣预测过程中。
技术领域
本发明涉及互联网技术领域,尤其涉及一种用户兴趣标签分类的方法及装置。
背景技术
随着Twitter、微博、QQ等网络社区的兴起,开放平台已经成为互联网应用的核心组成部分。开放平台拥有海量的用户和丰富的用户信息,应用开发者或第三方网站(后续统称为第三方)可以在开放协议许可的条件下,通过平台的应用程序接口(ApplicationProgram Interface,简称API)从开放平台获取这些用户信息,分析用户兴趣、好友关系等价值信息,实现开放平台与第三方之间的信息共享。
开放平台从起始到现在只有数年的时间,因此目前第三方引入开放平台用户信息辅方式还相对简单。对于用户性别、用户年龄等信息,各个网站的表达方式基本一致,第三方可以直接从开放平台引入,而对于用户兴趣这类信息,由于各个网站的兴趣分类体系互不相同(包括分类方式和分类粒度),因此第三方往往不能对开放平台的用户兴趣信息直接进行引入。例如在开放平台中的用户兴趣分类为电影、美食、足球、互联网,而某电影类第三方垂直网站中的用户兴趣则分类为惊悚、搞笑、科幻,对于开放平台中的用户兴趣信息,该垂直网站无法直接进行引入。
对于第三方无法直接引入开放平台中用户兴趣信息的问题,目前主要存在下述三种解决方案:1)通过人工分类的方式实现兴趣分类过渡;2)强制引入开放平台的用户兴趣信息,进行模糊匹配;3)丢弃无法直接引入的用户兴趣信息。
在上述引入用户兴趣信息的过程中,发明人发现现有技术中至少存在如下问题:第一,对于人工分类的方式,由于开放平台的用户信息量极大,对于第三方而言数据处理的人工成本过高并且效率低下,不适应大数据时代的发展趋势。第二、对于强制引入的方式,通常同一个用户的兴趣爱好是多方面的,如果开放平台中的兴趣分类与第三方中的兴趣分类不同,则强制引入用户兴趣信息会导致兴趣分类的准确性下降。例如在QQ空间这类强关系社区的开放平台中,用户展现出的兴趣通常为日常生活类的兴趣,如美食、电影等,而在某户外类第三方垂直网站中兴趣分类为登山、徒步、野营等。开放平台中的用户兴趣信息对于第三方而言显然缺少参考价值,容易使第三方错误的对用户进行兴趣分类,同时会引入大量毫无意义的用户兴趣信息。第三、丢弃用户兴趣信息的方式会使开放平台中的用户兴趣信息无法被充分利用,导致资源利用率过低。通常开放平台能够提供丰富全面的用户兴趣信息,开放平台与第三方之间存在的分类体系差异使得开放平台中有价值的用户兴趣信息被第三方忽略。例如,在微博开放平台中用户兴趣会被分类为电影、户外、美食等,在某摄影类第三方垂直网站中用户兴趣会被分类为器材、人像、风景等。按照一般常识,喜欢户外运动的用户大都喜爱摄影,并且通常涉及风景类摄影,开放平台中户外类的用户兴趣信息可以被分类到第三方中的风景类标签中,而这部分有价值的用户兴趣信息则被第三方丢弃掉了。
发明内容
本发明实施例提供一种用户兴趣标签分类的方法及装置,能够解决开放平台与第三方分类体系不一致时,开放平台的用户信息无法被第三方充分且准确利用的问题。
一方面,本发明实施例提供了一种用户兴趣标签分类的方法,包括:
获取活跃用户的训练数据,所述训练数据包括所述活跃用户的第一站点数据以及所述活跃用户在第二站点中选择的用户兴趣标签;
对第二站点中的第二站点兴趣标签进行二元标签转换,得到二分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310501027.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:监控告警策略配置方法及装置、监控告警方法及装置
- 下一篇:粘接带粘贴装置