[发明专利]基于用户聚类的协同过滤缺失数据处理方法有效
申请号: | 201810996476.3 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109446185B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 邓建新;单路宝;唐锐;贺德强;李承宸;张海平 | 申请(专利权)人: | 广西大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06K9/62 |
代理公司: | 南宁智卓专利代理事务所(普通合伙) 45129 | 代理人: | 邓世江;谭月萍 |
地址: | 530004 *** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于用户聚类的协同过滤缺失数据处理方法,属于数据处理领域,将有相同属性的多维有缺失的数据集组成的样本形成矩阵,矩阵的行代表数据样本,列代表数据维度,基于用户的协同过滤的基本思想,通过计算样本相对于所有项目的相似度,找到K个相似样本邻居,然后计算K个邻居的相关系数,根据相关系数选择最相似样本的未缺失的项目值作为有缺失数据样本的插补值,填充对应缺失数据的样本的项目值即可。该方法过程较简单,通过将相近样本的非缺失值作为插补值,实现缺失数据的插补,既综合利用了同维度数据样本之间的关系,保证了数据的原有特征,同时又保证数据样本的数量,避免了删除法导致数据量的减少,插补效果相对较好。 | ||
搜索关键词: | 基于 用户 协同 过滤 缺失 数据处理 方法 | ||
【主权项】:
1.基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述方法包括如下步骤:步骤1:将有相同属性的多维有缺失的数据集组成的样本si(i=1,2,…,m)形成矩阵S(m,n),其中n代表列数即数据维度(变量),m代表数据样本;步骤2:将S(m,n)中所有不含有缺失值的数据样本
分为一组,组成完整数据矩阵,记为C(p,n),含有缺失值的数据样本
分成一组,组成不完整数据矩阵,记为
p+q=m,i=1,2,…,p,j=1,2,…,q;步骤3:对完整数据矩阵C(p,n)通过k‑means聚类算法进行聚类,得到k个聚类中心
组成的矩阵K(k,n)和k个聚类结果矩阵,其中k表示聚类数目;步骤4:把
中每个数据样本
中的缺失值所在列去掉,得到完整数据样本E,去掉聚类中心矩阵K(k,n)中与数据样本
缺失值相同列的数据得到新的聚类中心矩阵F,完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本
相近的类;步骤5:在每一类中,分别计算该类中每个含有缺失值的数据样本
去掉缺失值所在列与该类中去掉相同列的不含有缺失值的数据样本的皮尔逊相关系数ρG,H;步骤6:对数据样本
的缺失数据进行填补,对数据样本
中缺失的变量xb填补入插补值
完成数据处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810996476.3/,转载请声明来源钻瓜专利网。