[发明专利]一种协同过滤距离的处理方法和系统有效
| 申请号: | 201210517617.1 | 申请日: | 2012-12-05 |
| 公开(公告)号: | CN103049486A | 公开(公告)日: | 2013-04-17 |
| 发明(设计)人: | 齐路;何锐邦;唐会军 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
| 地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 协同 过滤 距离 处理 方法 系统 | ||
技术领域
本发明涉及计算机技术领域,具体涉及一种协同过滤距离的处理方法和系统。
背景技术
互联网上的信息资源呈指数膨胀带来了所谓的“信息过载”和“信息迷向”问题,即人们很难找到自己感兴趣的信息,即使找到了一些,也经常混有很多“噪音”。因此出现了面向互联网的信息检索、信息过滤和协同过滤等技术。但信息检索不具有智能性,不能学习用户的兴趣,尤其是对具有特定专业兴趣的用户,输入相同的关键词只能得到相同的检索结果。信息过滤不能对同一主题的过滤结果区分质量好坏,并且随着信息资源的剧增,更有效的过滤需要结合人们的质量评价信息。基于该种需求,出现了推荐系统,推荐系统是为解决信息过载问题而提出的一种智能代理系统,能从大量信息中向用户自动推荐出符合其兴趣偏好或需求的资源。随着互联网的普及和飞速发展,推荐系统已经被广泛应用于各种领域,尤其在电子商务领域,推荐系统得到了越来越多的研究和应用。目前,几乎所有的大型电子商务网站都不同程度的使用了各种形式的推荐系统,比如Amazon、CDNOW、eBay和当当网上书店等。其中,协同过滤技术在当前推荐系统的应用中获得了较大的成功。
协同过滤是一类推荐算法。协同过滤考虑了用户的评价信息。协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度的预测。主要分为基于用户的协同过滤(User based)和基于商品的(Item based)两种。例如基于用户的协同过滤算法,它的基本思想是:如果要为一个用户推荐其没有的商品,首先计算其它用户和这个用户的喜好的相似程度,然后从与其喜好最相似的若干用户中找到这个用户没有的商品进行推荐。基于商品的协同过滤原理类似。因此算法中非常重要的一步就是计算所有用户间的相似程度(也即协同过滤距离)。
在互联网环境下,用户和商品都是海量数据,同时由于实效性对算法有一定的时间要求,而现有技术中对于协同过滤距离的计算基本上是在一个计算服务器上进行,而当遭遇超大量的用户,比如百万数量级的时候,采用单服务器计算则时效太慢,并且对于硬件的要求比较高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种协同过滤距离的处理系统和相应的一种协同过滤距离的处理方法。
依据本发明的一个方面,提供了一种协同过滤距离的处理方法,包括:
针对至少两个计算服务器,每个参与计算的计算服务器读取并存储相应的分块矩阵数据;所述分块矩阵数据为从原始矩阵数据中分配给所述计算服务器的分块矩阵数据;
每个参与计算计算服务器计算本地的分块矩阵数据,获得本地分块矩阵数据的协同过滤距离子矩阵;
每个参与计算的计算服务器进行各计算服务器间的循环通信计算,获得本地分块矩阵数据的协同过滤距离子矩阵;所述每个参与计算的计算服务器进行各计算服务器间的循环通信计算,获取协同过滤距离子矩阵具体包括:
针对每个参与计算的计算服务器,确认当前计算服务器对应的目的计算服务器;所述目的计算服务器用于接收当前计算服务器发送的本地的矩阵数据;
每个参与计算的计算服务器发送本地的分块矩阵数据至目的计算服务器,并接收其他计算服务器发送的分块矩阵数据;所述其他计算服务器为将当前计算服务器确认为目的服务器的计算服务器;
每个接收到分块矩阵数据的计算服务器,结合本地的分块矩阵数据,计算获得本地的分块矩阵数据和接收到的分块矩阵数据之间的协同过滤距离子矩阵。
可选的,所述针对每个参与计算的计算服务器,确认当前计算服务器对应的目的计算服务器包括:
所述针对每个参与计算的计算服务器,根据当前的循环通信计算轮次、当前计算服务器的标识和计算服务器的总个数,确认当前计算服务器对应的目的计算服务器。
可选的,所述针对每个参与计算的计算服务器,根据当前的循环通信计算轮次、当前计算服务器的标识和计算服务器的总个数,确认当前计算服务器对应的目的计算服务器包括:
将当前各计算服务器间进行循环通信计算的轮次p,与计算服务器的总个数N的一半N/2进行比较;
如果比较结果符合预设条件,则每个参与计算的计算服务器,根据当前计算服务器的标识i和轮次p,针对N进行取模运算得到结果u,将与u对应的计算服务器作为当前计算服务器的目标计算服务器;
如果比较结果不符合预设条件,则结束获得协同过滤距离子矩阵的计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210517617.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种半导体晶体管的制作方法
- 下一篇:复合式原子钟





