[发明专利]一种相似用户选取方法及装置有效
申请号: | 201710390358.3 | 申请日: | 2017-05-27 |
公开(公告)号: | CN107247753B | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | 王娜;王文君;陈昭男 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 王利彬 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相似 用户 选取 方法 装置 | ||
本发明涉及数据分析与处理技术领域,尤其涉及一种相似用户选取方法及装置。本发明通过获取全部用户的内容查看历史数据,按照查看时间点的先后顺序对用户的全部历史内容进行排序,得到用户的历史查看内容序列,对用户的历史查看内容序列进行连续词袋模型训练,得到连续词袋模型,以及历史内容的内容向量,根据得到的内容向量计算用户的兴趣偏好,并根据用户的兴趣偏好计算各用户与目标用户的相似度,选取与目标用户相似度最高的预置数量个用户作为目标用户的相似用户。与现有技术相比,本发明不需要根据用户对同样物品产生正反馈行为来计算用户之间的相似用户,避免了很多没有对同样物品产生过正反馈行为的用户,无法进行相似用户计算的问题。
技术领域
本发明涉及数据分析与处理技术领域,尤其涉及一种相似用户选取方法及装置。
背景技术
随着人们逐渐步入信息时代,当今世界正处于信息大爆炸的环境下,并且面临着严峻的信息过剩问题。仅在2011年,全球数据量就达到了1.8ZB,相当于全世界每个人产生200GB以上的数据。这种增长趋势仍在加速,据保守预计,接下来几年中,数据将始终保持每年50%的增长速度。如今,各大电商、视频播放等平台用户每天都将产生海量的数据,因此如何有效地利用用户产生的数据是当今互联网企业亟需解决的问题。这时候个性化的推荐系统作为数据挖掘的手段便应运而生了。推荐系统指的是互联网站向用户提供产品信息或建议,让用户发现自己潜在的兴趣和需求并帮助用户选择产品。
传统推荐系统的相似用户计算方法主要是基于用户的协同过滤算法(User basedcollaborative filtering,UserCF)来获得,具体如下:
给定用户u和用户v,令N(u)表示用户u有过正反馈行为的物品集合,N(v)表示用户v有过正反馈行为的物品集合,那么我们可以通过Jaccard公式计算用户u和v的相似度;或者通过余弦相似度公式计算用户u和v的相似度。
协同过滤算法将很多时间浪费在用户之间对同样的物品产生过正反馈行为的计算上,事实上很多用户之间并没有对同样的物品产生过正反馈行为。因此,基于协同过滤算法获取相似用户的缺点有:①用户数量很大时计算复杂度高;②大多数用户没有对相同物品产生过正反馈行为,无用计算过多。
发明内容
本发明所要解决的技术问题是,提供一种相似用户选取方法及装置,旨在解决现有技术中相似用户选取的过程,计算复杂且无用计算过多的问题。
本发明实施例第一方面提供了一种相似用户选取方法,所述方法包括:
获取全部用户的内容查看历史数据,所述用户的内容查看历史数据包括用户的全部历史内容及各所述历史内容的查看时间点,所述历史内容为用户查看过的内容;
按照所述查看时间点的先后顺序对所述用户的全部历史内容进行排序,得到所述用户的历史查看内容序列;
对所述用户的历史查看内容序列进行连续词袋模型训练,得到连续词袋模型,以及所述历史内容的内容向量;
根据得到的所述内容向量计算所述用户的兴趣偏好,并根据所述用户的兴趣偏好计算各用户与目标用户的相似度;
选取与所述目标用户相似度最高的预置数量个用户作为所述目标用户的相似用户。
本发明实施例第二方面提供了一种相似用户选取装置,所述装置包括:
获取模块,用于获取全部用户的内容查看历史数据,所述用户的内容查看历史数据包括用户的全部历史内容及各所述历史内容的查看时间点,所述历史内容为用户查看过的内容;
排序模块,用于按照所述查看时间点的先后顺序对所述用户的全部历史内容进行排序,得到所述用户的历史查看内容序列;
训练模块,用于对所述用户的历史查看内容序列进行连续词袋模型训练,得到连续词袋模型,以及所述历史内容的内容向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710390358.3/2.html,转载请声明来源钻瓜专利网。