[发明专利]基于多维相似度的个性化新闻推荐方法有效
申请号: | 201210355209.0 | 申请日: | 2012-09-21 |
公开(公告)号: | CN102929928A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 叶小卫;曹一鸣;卢美莲;王明华;李佳珊;刘金亮 | 申请(专利权)人: | 北京格致璞科技有限公司;北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 夏宪富 |
地址: | 102399 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多维 相似 个性化 新闻 推荐 方法 | ||
技术领域
本发明涉及一种基于多维相似度的个性化新闻推荐方法,特别是涉及一种融合内容相似度、行为相似度和时间特征的个性化新闻推荐方法,属于基于协同过滤的个性化新闻推荐的技术领域。
背景技术
随着互联网规模的迅速发展,人们获取信息的方式越来越多,信息呈爆炸式增长,用户逐渐由信息匮乏走向了信息过载时代——海量信息使得用户难以寻找到各自所需的信息。为了方便用户从海量信息中寻找其所需的内容,出现了很多解决方案:包括分类目录和搜索引擎。分类目录是把常用热门网站分门别类,便于用户查找信息。但是,随着互联网规模的扩大,分类目录只能覆盖少量热门网站。搜索引擎是用户只需把自己的需求转换成关键词的不同组合,再在网络中寻找其所需的信息。当用户有明确需求时,搜索引擎还是可行的,但是,用户在很多时候并不知道自己的需求。比如用户打开优酷视频网站,上面有大量视频内容信息,用户并没有明确的需求非要观看什么,这时如果推荐引擎能够自动给用户推荐一些视频,而这些视频恰好是用户所喜欢的,就能够很好地解决上述问题。著名电子商务网站Amazon销售额中的35%是来自推荐系统。由此可见,推荐系统在提高了用户的满意度的同时,也提高了网站的黏性,增加了网站访问量,为网站带来巨大的商业利益。
在用户需求模糊时,推荐引擎能够自动把用户感兴趣的内容推荐给用户,同时,过滤用户不感兴趣的大量内容,即为不同用户呈现不同的个性化内容。目前,推荐系统的实现方式很多,其中,协同过滤技术因其与内容无关,成为最为广泛使用的个性化推荐技术,被应用到电子商务、视频网站、个性化阅读、个性化广告等许多领域。
目前,应用最广泛的协同过滤个性化推荐技术有两种方式(参见图1):基于用户的协同过滤和基于项目的协同过滤。前者主要包括三个步骤:用户行为数据表示;利用用户相似度计算方法,查找与目标用户最相似的多个用户;根据该多个相似用户对项目的行为来预测目标用户对项目的行为,并进行推荐。后者也包括三个步骤:项目行为数据表示;利用项目相似度计算方法,计算项目之间的相似度;把与用户产生行为的项目最相似的项目推荐给用户。
下面详细介绍基于用户和基于项目的两种协同过滤的流程:
基于用户的协同过滤技术中,用户行为数据表示为用户-项目二维矩阵,其中每行是用户对各列中各个项目的评分,通常的评分是1~5。
用户相似度的计算是协同过滤中最关键的操作,传统的相似度的计算有下述三种:余弦相似度、修正余弦相似度和皮尔逊相似度。
余弦相似度(即cosine相似度):将用户评分看作多维项目空间上的向量,如果用户对项目没有评分,则将该用户对该项目的评分设为0;用户间相似度值是向量之间的余弦夹角值。余弦相似度的优点是:将用户没有评分的项目的评分值设为0,有效提高了计算性能。但事实上,用户对未评分项目的喜好程度不可能全都相同、且都为0。所以,在评分数据稀疏情况下,余弦相似度方法就无法准确计算用户之间的相似度和项目之间的相似度;同时,余弦相似度并未考虑用户评分尺度的问题。
修正的余弦相似度度量:将用户对项目的评分减去用户对项目的平均评分,以改善余弦相似度度量方法的缺陷,这种度量方法考虑了不同用户的评价尺度问题。与余弦相似度性类似,它也是将用户未评分项目的评分值设为0,在稀疏矩阵情况下,也不能准确地计算出用户/项目之间的相似度。
皮尔森相似度:只在用户间共同评分的项目上计算相似度,比修正的余弦相似度计算方法中直接用0来填充,具有更好的推荐质量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京格致璞科技有限公司;北京邮电大学,未经北京格致璞科技有限公司;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210355209.0/2.html,转载请声明来源钻瓜专利网。