[发明专利]一种基于高斯混合的大数据智能推荐方法有效
申请号: | 201710844205.1 | 申请日: | 2017-09-19 |
公开(公告)号: | CN107545471B | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 杨永丽;宁振虎;薛菲;公备;王昱波 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q30/06;G06K9/62;G06N3/00 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于高斯混合的智能推荐方法,属于大数据智能推荐领域;本发明基于高斯混合模型的协同过滤推荐算法GMM‑TCF的研究及应用,主要包括用户和项目联合概率的生成、如何定义大数据推荐模型中的最大似然函数、如何对大数据推荐模型中的高斯混合参数进行初始化和优化、以及怎么样将基于高斯混合的用户兴趣度模型与基于项目的推荐模型进行线性结合。一方面从最初用户属于某一个聚类到多个聚类的转变,这使得用户的兴趣得到了极大的体现;另一方面,通过添加项目时间因子,提高了项目之间的相似度,从而建立基于项目的预测模型,使得算法的推荐效果更好,推荐精度更高。 | ||
搜索关键词: | 一种 基于 混合 数据 智能 推荐 方法 | ||
【主权项】:
一种基于高斯混合的大数据智能推荐方法,其特征在于:该方法的实现步骤如下,(1)基于用户兴趣的相似度预测模型;首先,通过PLSA模型构建用户和项目的联合概率,基于此概率形式,构建合适的似然函数即大数据智能推荐模型;然后,通过CFPSO算法优化EM算法从而求解大数据智能推荐模型中的参数;最后,运用大数据智能推荐模型求解目标用户对项目的预测评分;a.构建用户和项目的联合概率;对于每一个三维向量<u,i,v>,其中u,i,v分别为用户u、项目i、及用户u对项目i的评分;引入潜在变量Z={z1,z2,…,zk},其中zi(1≤i≤k)为不同的聚类群体,用P(zk|u)表示用户u属于zk群体的概率且P(v|i,zk)表示群体zk对项目i评分v的概率;则用户和项目的联合概率为:b.构建似然函数即大数据智能推荐模型;假定群体z对项目i评分v的条件概率P(v|i,z)符合高斯分布,有P(v|i,z)=N(μi,z,σi,z)=P(v;μi,z,σi,z),其中μi,z,σi,z分别为群体Z对项目i评分的均值和方差,则用户和项目的联合概率是一个满足高斯混合的概率模型:则得到对数似然函数为:R(θ′)=-Σ<u,i,v>Σz∈ZP(z|u,v,i;θ′)[logP(v,i|z)+logP(z|u)]---(1)]]>c.参数初始化选择;针对参数P(z|u),μi,z,采用K‑means聚类算法对参数进行初始化;同时,运用CFPSO算法对初始化后的参数进行优化;设定粒子群的数目为n,任意粒子i的位置表示为Xi=(x1,x2,…xn),选择(1)式作为适应度函数;则基于CFPSO优化EM算法的步骤如下:第一步:初始化粒子种群;给定粒子群的数目同时对粒子群中每个粒子的初始位置和速度进行初始化,位置和速度公式如下:vidt+1=k[ωvidt+c1r1(pbestidt-xidt)+c2r2(gbestidt-xidt)]---(2)]]>xidt+1=xidt+vidt+1---(3)]]>其中,表示第i个粒子在t+1时刻d维空间的速度,k为压缩因子,ω为惯性权重,c1,c2为加速常数,r1和r2为随机数,与分别表示粒子i在t时刻d维空间的个体最优和全局最优值,表示第i个粒子在t+1时刻d维空间的位置;第二步:计算粒子群中各个粒子的适应度值,并更新粒子的当前个体最优位置pbest和粒子群的群体最优位置gbest;第三步:对粒子群的gbest根据EM算法对其进行更新;比较更新前后的适应度值,如果更新后的gbest值使得适应度函数值变大,则更新种群最优位置gbest信息,否则不予更新;第四步:对更新后的种群最优值gbest进行校验,如果其满足要求,则结束CFPSO算法,并取得gbest值的属性信息作为EM算法的初始参数;否则转至第五步;第五步:根据公式(2)和(3)更新粒子群中粒子个体的速度和位置参数并转至第二步继续执行;其中,EM算法的执行步骤如下:E步:根据每一个评分向量<u,i,v>,计算得到每个潜在的变量z∈Z的后验概率P(z|u,v,i),如下:P(z|u,v,i)=P(v;μi,z,σi,z)P(z|u)Σz∈ZP(v;μi,z,σi,z)P(z|u)---(4)]]>M步:根据E步计算得到的后验概率,并结合拉格朗日最优化极值对似然函数求偏导可得到P(z|u),μi,z,的值,分别如下:P(z|u)=Σ{u′,v,i}:u′=uP(z|u,v,i)Σz′∈ZΣ{u′,v,i}:u′=uP(z′|u,v,i)---(5)]]>μi,z=Σ{u′,v,i}:i′=ivP(z|u,v,i)Σz′∈ZΣ{u′,v,i}:i′=iP(z|u,v,i)---(6)]]>σi,z2=Σ{u′,v,i}:i=i′(v-ui,z)2P(z|u,v,i)Σ{u′,v,i}:i=i′P(z|u,v,i)---(7)]]>根据CFPSO优化EM算法的初始化参数,交替执行E步和M步,直到收敛,求得参数P(z|u),μi,z,作为大数据推荐模型的参数集;d.用户兴趣相似度模型预测评分;通过M步中的参数集,构造基于高斯混合的用户兴趣相似度模型,从而计算用户u对项目i的预测评分,具体公式如下:rate_uHMMu,i=E(P(v|u,i))=Σz∈ZP(z|u)ui,z---(8)]]>(2)基于项目的预测模型;根据对项目打分的用户越多,则项目之间的相似度越高;同时,由于同类物品出现的时间越相近,则各物品之间的相似度越高,因此引入项目时间因子,定义如下:facTi,j=e-|ti-tj|---(9)]]>其中,ti和tj为项目i和项目j出现的时间;定义项目i和j的相似度为sim(i,j):sim(i,j)=Σu∈U(i)∩U(j)(ru,i-ri‾)(ru,j-rj‾)Σu∈U(i)∩U(j)(ru,i-ri‾)2Σu∈U(i)∩U(j)(ru,j-rj‾)×min(max(|U(i)∩U(j)|,θ)θ)×facTi,j---(10)]]>其中,U(i)和U(j)分别是对项目i和j评分的用户集合,ru,i和ru,j表示用户u对项目i和项目j的评分,和表示所有用户对项目i和项目j的平均评分,θ为非负数;则定义用户对项目的预测评分如下:rate_Itemu,i=ri‾+sim(i,j)(ru,j-rj‾)Σj∈S(i)sim(i,j)---(11)]]>其中,S(i)为项目i的领域集合,这里选择项目是否加入邻域的方式为判断两项目的相似度是否大于一定的阈值,这样的计算的方式减少项目之间的比较排序,节约运算时间;(3)线性加权预测;将用户兴趣相似预测模型与基于项目的预测模型运用线性加权的方式将二者的预测评分进行结合,从而计算出用户对项目的最终预测评分,其公式计算如下:rateu,i=α×rate_uHMMu,i+β×rate_Itemu,i,0<α<1,α+β=1 (12)综上,对协同过滤算法中用户对项目的预测评分进行改进,分别通过高斯混合、CFPSO、EM算法建立基于用户兴趣相似度预测模型,通过添加时间因子建立基于项目预测模型,从而将二者的预测评分进行线性结合,作为用户对项目的最终预测评分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710844205.1/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置