[发明专利]非固定k值的最近邻填充方法在审

申请号：	201310452387.X	申请日：	2013-09-29
公开（公告）号：	CN103544218A	公开（公告）日：	2014-01-29
发明（设计）人：	张师超;朱晓峰;刘星毅	申请（专利权）人：	广西师范大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	巢雄辉
地址：	541004 广西壮***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	固定近邻填充方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机科学与技术领域和信息技术领域，特别是一种使用非固定k值的最近邻方法填充缺失数据的方法。

背景技术

最近邻算法（kNN）的原理可以描述如下：两个具有最近距离的事例的关系是最紧密的。因此，如果一个事例有缺失（不论缺失在条件属性还是决策属性），都可以计算它跟数据集中其他没有缺失事例的距离，然后找到跟它距离最近的事例，最后，缺失数据的值就用它最近距离的事例该属性上的值（离散属性）或者平均值（连续属性）来代替。

由于最近邻方法是基于实例学习的懒惰学习方法（Lazy Learning），因为它实际并没有根据所给训练样本构造一个分类器，而是将所有训练样本首先存储起来，当要进行分类时，就临时进行计算处理。当然，如果用户不能指定k值时，需要事先从训练样本学习k值。与积极学习（Active Learning）方法，如决策树归纳方法和神经网络方法相比，后者在进行分类前就已构造好一个分类模型；因此前者，因为是懒惰学习方法，在训练样本数目迅速增加时，会导致最近邻算法的计算量迅速增加。由于有效的索引方法支持，这个问题得到了解决。于是，最近邻算法得到了广泛的应用，例如，填充缺失数据，分类等。由于容易理解，操作简单，效果明显，无论在科研还是实际生活中都具有广泛应用。例如，在对各种事例进行分类时，最近邻算法的分类精确率在二类问题或者多类问题中都非常高。在填充缺失数据方面，最近邻方法是最热门的冷卡方法，于1967年首次提出，目前已经被嵌入一些常见的软件中，例如，ＳＡＳ等。

但是，最近邻填充算法存在一些明显的缺点：1、欧式距离的计算方法；2、k的取值；3、不同的实例取值相同。

大多数最近邻填充算法使用欧式距离公式计算两事例的距离。但是，很多文献已经证明欧式距离公式不能很好的处理离散型、连续性或者混合型属性。而实际应用中，各种不同类型的属性同时存在，例如，连续属性，二进制属性，无序离散型和有序离散型等（本发明中也把非连续性属性统称为离散属性）。

kNN填充方法中的参数k的取值却是一个非常值得关注的问题。在实验中，如果k取大了，可能容易导致随机性太严重，如果k取小了，样本数目就不够了，达不到统计意义上大样本容量的标准（从非科学意思的观点来看，希望大样本容量至少要30个以上）。并且，数据集不同，最好的k值也不同，通常k的最优选取要通过实验得到，这必然要增加实验的复杂度。这是一个公开性难题，所以k的取值得到了很多专家的注意，有建议k=5（当n>100,n是数据集缺失数据的个数）。仔细的读者会发现，在整个数据集中的所有缺失事例都要取一个确定好了的k个事例对自己进行填充。这个显然不合理，因为，有可能一些事例当k=5时填充结果很好，而另外一些事例的第五个邻居可能是自己的孤立点了。因此，对一个数据集取同一个k值是不合理的，而且这样的k是非常难取到的。

发明内容

本发明的目的在于提供简单而有效的缺失值填充方法。该方法可解决距离计算不合理和最近邻k值对所有缺失实例一样的问题。本发明首先定义一种简单有效的距离计算方法，然后使用稀疏编码的方式对每个缺失实例选择合适的k值，最后通过得到的k值选择缺失实例最近的k个无缺失实例进行缺失值填充。

本发明的技术方案包括下述步骤：

（1）把属性分成五类：连续型，对称二进制型，非对称二进制型，无序离散型和有序离散型；

并定义不同类属性实例的距离计算式；

（2）对每个缺失实例选择最近的k个训练实例，同时选取最符合该缺失实例的属性；

（3）计算缺失实例跟所有训练实例的距离，选取最近的k个无缺失实例，然后使用这k个无缺失实例对缺失实例进行缺失值填充。

其中，不同类属性实例的距离计算式如下：

混合类型：其中代表事例i和j是否有缺失现象，如果有则为0，否则为1，f为在五类属性中第f类属性，n是属性个数，d_ij^f即为事例i和j第f类属性的距离；

两个连续型：其中n代表在事例i和j中有n个连续属性，Ai,k是事例i第k个属性的属性值，是事例i中n个连续属性的平均值；

对称二进制型：非对称二进制型：其中q代表事例i和事例j的取值为“1”的个数，r代表事例i取值为“0”且事例j的取值为“1”的个数，s代表事例i取值为“1”且事例j的取值为“0”的个数，t代表事例i取值为“0”且事例j的取值为“0”的个数；

无序离散型：其中，p为无序离散型属性的数据集个数，m是两个事例中有相同属性值的个数；