[发明专利]基于自适应分布式计算的在线推荐方法、系统和移动终端有效
申请号: | 201310171026.8 | 申请日: | 2013-05-10 |
公开(公告)号: | CN103530304B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 李朝;汪灏泓 | 申请(专利权)人: | TCL集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙)44268 | 代理人: | 王永文,杨宏 |
地址: | 516001 广东省惠州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 分布式 计算 在线 推荐 方法 系统 移动 终端 | ||
技术领域
本发明涉及智能推荐技术领域,尤其涉及一种基于自适应分布式计算的在线推荐方法、系统和移动终端。
背景技术
如何从海量大数据中找到用户感兴趣的信息,如何让信息受到广大用户的欢迎,是一件非常困难的事情。推荐系统的任务就是联系用户和信息,帮助用户发现对自己有价值的信息,让信息能够展现在对它有兴趣的用户面前,从而实现信息消费者和信息提供者的双赢。
推荐系统主要是通过分析用户的行为,对其建模,通过模型来预测用户的兴趣从而做出推荐。主要的方法可分为内容过滤,协同过滤,和基于矩阵分解的模型。内容过滤是在基于物品内容的基础上给用户推荐和他们之前喜欢的物品在内容上相似的其他物品。协同过滤通过分析用户的行为数据来找到相似的用户和相似的物品做出推荐。基于矩阵分解的模型是通过发现隐含的特征(比如类别)来联系用户兴趣和物品。这种模型在用户的行为数据上通过矩阵分解的方法来确定物品在这个类别中的权重,然后计算出用户对物品的感兴趣程度,从而对用户进行推荐。内容过滤和协同过滤的算法大部分都是在物品的内容或用户行为数据上的一些统计方法,而基于矩阵分解的模型是一种机器学习的方法,能更好的学习出用户和物品之间的关系,因此这种模型已经被广泛地应用到了目前主流的推荐系统中。
虽然基于矩阵分解的模型效果好,但通常是作为一种离线的计算模型。因为它要求在内存里面加载整个数据,而且时间计算复杂度也很高。在普通机器上很难利用矩阵分解模型对海量的大数据部署推荐系统。目前也有提出利用分布式计算模型比如MPI(Message Passing Interface)或者MapReduce在大型的集群系统中快速地进行分布式矩阵分解运算,同时通过增量式模型实现在线更新和推荐。然而这种方法需要搭建高性能计算机,同时部署集群系统和分布式计算的框架复杂度高,且不利于系统的维护和扩展。
有鉴于此,如何针对大数据设计一种快速、稳定、可靠、有效的基于矩阵分解的在线模型对当前智能推荐系统起着至关重要的作用。
发明内容
鉴于现有技术中的不足,本发明目的在于提供一种基于自适应分布式计算的在线推荐方法和系统。旨在解决现有技术中智能推荐系统利用矩阵分解模型处理海量大数据时面临的计算复杂度高、维护扩展困难等问题。
本发明的技术方案如下:
一种基于自适应分布式计算的在线推荐方法,用于通过处理装置对海量数据信息处理后向用户进行推荐,其中,所述在线推荐方法包括以下步骤:
A、根据处理装置的处理能力,采用基于范数的矩阵抽样算法从海量数据信息中抽样后进行分配,令每一处理装置能够独自处理分配的数据信息;
B、利用基于偏置量的矩阵分解模型对所分配的数据信息进行训练,得到一评分预测模型;
C、通过增量式在线更新方法更新所述评分预测模型;
D、通过加权集成更新后的评分预测模型获取对用户的最终推荐列表;
所述步骤A中,采用基于范数的矩阵抽样算法具体包括以下步骤:
A1、获取海量数据信息对应的数据矩阵;
A2、对所述数据矩阵的行和列进行采样,得到一子矩阵;并根据向量的第一或第二范数来确保采样后的子矩阵包含的数据和海量数据之间的近似度小于预定的误差阈值。
所述的基于自适应分布式计算的在线推荐方法,其中,所述步骤A2中具体包括以下步骤:
A21、对数据矩阵的行和列进行采样,行和列的采样数目分别为p和q,输出一包含p行q列的子矩阵;
A22、根据第二范数计算行和列在数据矩阵范数中的比例,生成每一行和列的范数比例;
A23、对上述范数比例进行归一化处理后,得到样本取样的概率,并生成相应的概率区间;
A24、随机生成一大于0小于1的数,判断其是否在上述概率区间内,如是则抽取与其对应的样本。
所述的基于自适应分布式计算的在线推荐方法,其中,所述步骤C中增量式在线更新方法包括对已知用户进行预测和对新用户/物品进行预测。
所述的基于自适应分布式计算的在线推荐方法,其中,所述步骤D中所述加权集成中的权重是根据每一处理装置的处理能力来进行分配。
所述的基于自适应分布式计算的在线推荐方法,其中,所述步骤D中加权集成中的权重是根据每一处理装置的处理能力来进行分配具体包括:
D1、每一处理装置的抽样的行列个数分别为cj和rj;
D2、则设置权重
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310171026.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗乳房胀痛的组合物中药
- 下一篇:治疗高血脂的药酒