[发明专利]基于邻域的top‑k推荐方法有效

专利信息
申请号: 201210130111.5 申请日: 2012-04-27
公开(公告)号: CN103377250B 公开(公告)日: 2017-08-04
发明(设计)人: 杨希旺;陈飞飞 申请(专利权)人: 杭州载言网络技术有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06Q30/02
代理公司: 浙江杭州金通专利事务所有限公司33100 代理人: 徐关寿
地址: 310007 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 邻域 top 推荐 方法
【说明书】:

技术领域

发明属于计算机技术领域,涉及由计算机完成的个性化推荐技术,具体的说是一种基于邻域的top-k推荐方法。

背景技术

个性化推荐在我们的日常生活当中变得越来越重要,特别是web2.0的出现带来了海量的数据。精确的推荐能够帮助用户容易的找到相关的产品而省去了用户在海量数据中找寻的时间。现在的电子商务厂商和以互联网广告为收入的公司都在智能化的个性推荐上面投入大量的人力、物力。从上世纪90年代中开始,个性化推荐邻域变成了一个十分重要的科研邻域。推荐系统中最常用的方法是协同滤波方法-只依赖于用户的历史行为记录比如用户的交易记录、打分记录,而不必去创建一个明确的用户兴趣资料。当收集到一定量的用户数据后,比如Netflix的用户电影打分记录,协同滤波成为了最受欢迎的也是最精确的方法。值得注意的是,协同滤波不需要行业知识,不需要去分析被推荐对象的内容信息。而且,协同滤波依赖于用户的行为有助于揭示复杂的、不易被预期到的行为模式。这些是通过已知的数据属性无法做到的。随着社交网络的兴起,社会化过滤也成为一个重要的推荐方法,其主要思想就是把社交网络内兴趣相类似的用户喜欢的东西推荐给目标用户。

基于邻域top-k推荐和基于模型的top-k推荐是当下协同滤波中最流行的两类推荐方法,基于邻域的推荐方法擅长于利用关系比较相近的用户群进行预测,而基于模型的推荐方法能更好的利用一个用户的所有的打分记录。当新的产品加入系统后,基于邻域的方法能够及时的利用少量的打分信息给目标用户进行推荐,而基于模型的方法需要重新进行模型训练才能得到该产品的特征向量从而才能对此产品进行推荐。

到目前为止,社交网络内的推荐模型主要有三种,但他们都是集中在优化RMSE(均方根误差)。首先数据(用户对产品的打分、购买或点击数据)被随机切分成训练数据集(trainingset)和测试数据集(testset),训练数据集用来训练模型,测试数据集用来测试模型的精度。RMSE定义为:但是对于实际的商用推荐系统来讲,根据用户的历史行为来预测用户以后会感兴趣的内容、产品更有实际意义。

系统每次给用户推荐k(一般比较小)个可能感兴趣的产品。这种优化RMSE的技术已经趋于成熟。

对每个用户u,首先跟据推荐模型来给每个未打分的产品进行预测打分,然后根据预测的分值将产品进行从高到低的排序。注意,预测的打分值是个连续值,所以排序一般是唯一的。如果碰到两个相同的分值,则这两个产品先后排序随机。定义相关产品为用户喜欢的产品,一般设个阈值,打分(用户的实际打分)高于此值的就认为是相关产品。举个例子,在Epinions数据里,我们把打分为5的产品定义为相关产品,打分小于5的或是打分缺失的定义为不相关。Top-k命中率定义为测试数据集里相关产品出现在top-k推荐列表上的比例。定义用户u的测试数据集里的所有相关产品数目为N(u),定义用户测试数据集里的相关产品出现在top-k列表的数目为N(k,u)。用户u的top-k命中率为:所有用户的top-k命中率为:对所有用户的求和。

一种典型的在社交网络内做top-k推荐的方法是基于最近邻域的方法。首先给目标用户x找到相似的用户群,然后通过该用户群预测用户x对候选产品的打分,根据预测打分的分值将候选产品进行排序,推荐排名最高的k个产品给目标用户x。

这种方法的缺点是没有考虑到隐性反馈(缺失的打分)的信息。比如现在给目标用户x选定了一个大小为100的用户群,现在有两件产品i,j:用户群中只有一人对产品i有打分为5,其他人没打分。而对产品j而言,用户群中有99人对其打分为5,1人打分为4。如果用加权平均来预测用户x对产品i,j的打分,而所以预测结果是用户在产品i,j中更喜欢产品i。而实际上明显用户更喜欢产品j的可能性要很大。

基于邻域的推荐方法的核心是如何给目标用户找到相似的用户群。常用的方法有三种:

方法一:每个用户历史行为用一个行向量表示,向量第i个值表示对第i个对象的打分值(如果是点击记录,1表示点击了,0表示没有),通过计算用户的打分记录向量计算用户间的Pearson相似度或计算Cosine相似度在全体用户中找到跟目标用户最接近的N1个用户,标记该用户群为

方法二:通过社交网络过滤的方法可以找到在社交网络内最相近的N2个用户,标记该用户群为常用的方法有广度优先搜索、信任值推理和随机走动模型。

方法三:混合方法一、方法二的用户群,得到一个混合用户群。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州载言网络技术有限公司,未经杭州载言网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210130111.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top