[发明专利]基于hive的协同过滤推荐方法有效
申请号: | 201910830907.3 | 申请日: | 2019-09-03 |
公开(公告)号: | CN110532330B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 刘洋;孙永强;韩挺;唐潮 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458;G06F16/435 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 王荔 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于hive的协同过滤推荐方法,hive是建立在Hadoop集群上的数据仓库工具,底层计算采用MapReduce架构,所以hive能够分布式处理数据量巨大的表,本发明的方法基于hivesql语言,应用矩阵分解的思想,解决了协同过滤推荐系统中的超大矩阵的储存运算等问题,实现了计算用户‑商品(影片)评分、商品与商品相似度矩阵及用户‑推荐商品的数据表的计算,完成了推荐系统中的关键算法部分,特别适合应用于大数据背景下的个性化推荐系统领域。 | ||
搜索关键词: | 基于 hive 协同 过滤 推荐 方法 | ||
【主权项】:
1.基于hive的协同过滤推荐方法,其特征在于,包括以下步骤:/na.数据仓库的选择及源数据的存储;把kafak采集到的数据经过过滤清洗后的用户行为数据储存到hive,以方便之后的计算;/nb.用户-影片-评分的计算及结果储存;/n超大矩阵的分解储存计算:储存及使用到M*N的用户-影片评分表、N*N的影片-影片相似度表两个矩阵,在实际生产环境中,列数量N的取值较大,考虑把大矩阵拆分成MAC,CID,SCORE这样的形式,经过拆分后,表的列数变成固定的3列;/n结合实际用户观影行为数据,求解出符合储存要求的用户-影片评分表,包括以下三个小步骤:/n(1)清洗过滤相关数据;/n(2)根据相应数据计算观影时长并过滤异常数据;/n(3)根据设计的公式 计算用户-影片-评分公式并进行计算其中timei表示单次观影时长,timevid表示一集时长,如果是电影,就代表该电影时长,episodes表示集数,电影集数为1;/nc.影片-影片 相似度的计算及结果储存;根据用户-影片评分表及大矩阵分解方案,求解影片-影片相似度表,对于相似度计算公式,考虑到hive计算的复杂度,对传统的余弦相似度计算公式作了相应的改进,如下所示:/n(1) /n(2)根据(1)中的公式使用hive中的group by、sum算子具体实现,求得最终影片-影片相似度;/n其中的每score1与score2表示同一mac对不同的两部影片cid1,cid2的评分,而score1*score2用以求取变形余弦相似度的分子部分,score12,score22用以求取分母部分;该公式与传统余弦相似度不同之处在于计算分母的时候,取的数据是又共同mac评分的数据,这样设计能够减轻hive里面的计算复杂度;/n对于计算结果影片-影片-相似度的储存,与用户-影片-评分储存需求类似,需要储存N*N的用户-影片评分矩阵,其中N为影片的数量,在实际生产环境中,列数量N的取值较大,现有的数据库难以直接储存运算列值巨大的表,结合用户-影片-评分储存方案,最终考虑把大矩阵拆分成CID1,CID2,SIMILARITY这样的形式,经过拆分后,表的列数变成固定的3列,符合生产要求;/nd.用户-影片-推荐度数据的计算及结果储存;/n在计算用户-影片-推荐度数据的时候,需要使用到上述中的用户-影片-评分表与影片-影片-相似度表;由于用户评分过的影片、影片的相似影片的数量都可能很大,因此不能进行全量计算;经过分析,用户为观影过的最感兴趣的影片应该具有和用户评分高的影片相似度较大的特征,基于此逻辑,那么寻找用户评分最高的K部电影并记录对每部电影的评分score_i,再分别找出与这K部电影的最相似的N部电影作为候选电影,并记录相似度simirity_i_j,最后使用求解score_i*simirity_i_j之和计算用户对影片总的感兴趣程序,最后的结果依然采用多行3列的表进行储存,每列分别储存MAC,REC_CID,REC_SOCRE,对于某个用户来说,按照推荐指数从高到低对影片id进行排列。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910830907.3/,转载请声明来源钻瓜专利网。