[发明专利]基于用户聚类的协同过滤缺失数据处理方法有效

申请号：	201810996476.3	申请日：	2018-08-29
公开（公告）号：	CN109446185B	公开（公告）日：	2021-07-13
发明（设计）人：	邓建新;单路宝;唐锐;贺德强;李承宸;张海平	申请（专利权）人：	广西大学
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/28;G06K9/62
代理公司：	南宁智卓专利代理事务所(普通合伙) 45129	代理人：	邓世江;谭月萍
地址：	530004 ***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于用户聚类的协同过滤缺失数据处理方法，属于数据处理领域，将有相同属性的多维有缺失的数据集组成的样本形成矩阵，矩阵的行代表数据样本，列代表数据维度，基于用户的协同过滤的基本思想，通过计算样本相对于所有项目的相似度，找到K个相似样本邻居，然后计算K个邻居的相关系数，根据相关系数选择最相似样本的未缺失的项目值作为有缺失数据样本的插补值，填充对应缺失数据的样本的项目值即可。该方法过程较简单，通过将相近样本的非缺失值作为插补值，实现缺失数据的插补，既综合利用了同维度数据样本之间的关系，保证了数据的原有特征，同时又保证数据样本的数量，避免了删除法导致数据量的减少，插补效果相对较好。
搜索关键词：	基于用户协同过滤缺失数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于用户聚类的协同过滤缺失数据处理方法，其特征在于：所述方法包括如下步骤：步骤1：将有相同属性的多维有缺失的数据集组成的样本si(i＝1,2,…,m)形成矩阵S(m,n)，其中n代表列数即数据维度(变量)，m代表数据样本；步骤2：将S(m,n)中所有不含有缺失值的数据样本分为一组，组成完整数据矩阵，记为C(p,n)，含有缺失值的数据样本分成一组，组成不完整数据矩阵，记为p+q＝m,i＝1,2,…,p，j＝1,2,…,q；步骤3：对完整数据矩阵C(p,n)通过k‑means聚类算法进行聚类，得到k个聚类中心组成的矩阵K(k,n)和k个聚类结果矩阵，其中k表示聚类数目；步骤4：把中每个数据样本中的缺失值所在列去掉，得到完整数据样本E，去掉聚类中心矩阵K(k,n)中与数据样本缺失值相同列的数据得到新的聚类中心矩阵F，完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本相近的类；步骤5：在每一类中，分别计算该类中每个含有缺失值的数据样本去掉缺失值所在列与该类中去掉相同列的不含有缺失值的数据样本的皮尔逊相关系数ρ_G,H；步骤6：对数据样本的缺失数据进行填补，对数据样本中缺失的变量x_b填补入插补值完成数据处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西大学，未经广西大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810996476.3/，转载请声明来源钻瓜专利网。

上一篇：基于大数据分析平台的发电大数据预处理方法及系统
下一篇：一种基于移动轨迹的社会关系判断方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于用户聚类的协同过滤缺失数据处理方法有效

专利文献下载