[发明专利]非固定k值的最近邻填充方法在审
申请号: | 201310452387.X | 申请日: | 2013-09-29 |
公开(公告)号: | CN103544218A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 张师超;朱晓峰;刘星毅 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 巢雄辉 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 固定 近邻 填充 方法 | ||
技术领域
本发明涉及计算机科学与技术领域和信息技术领域,特别是一种使用非固定k值的最近邻方法填充缺失数据的方法。
背景技术
最近邻算法(kNN)的原理可以描述如下:两个具有最近距离的事例的关系是最紧密的。因此,如果一个事例有缺失(不论缺失在条件属性还是决策属性),都可以计算它跟数据集中其他没有缺失事例的距离,然后找到跟它距离最近的事例,最后,缺失数据的值就用它最近距离的事例该属性上的值(离散属性)或者平均值(连续属性)来代替。
由于最近邻方法是基于实例学习的懒惰学习方法(Lazy Learning),因为它实际并没有根据所给训练样本构造一个分类器,而是将所有训练样本首先存储起来,当要进行分类时,就临时进行计算处理。当然,如果用户不能指定k值时,需要事先从训练样本学习k值。与积极学习(Active Learning)方法,如决策树归纳方法和神经网络方法相比,后者在进行分类前就已构造好一个分类模型;因此前者,因为是懒惰学习方法,在训练样本数目迅速增加时,会导致最近邻算法的计算量迅速增加。由于有效的索引方法支持,这个问题得到了解决。于是,最近邻算法得到了广泛的应用,例如,填充缺失数据,分类等。由于容易理解,操作简单,效果明显,无论在科研还是实际生活中都具有广泛应用。例如,在对各种事例进行分类时,最近邻算法的分类精确率在二类问题或者多类问题中都非常高。在填充缺失数据方面,最近邻方法是最热门的冷卡方法,于1967年首次提出,目前已经被嵌入一些常见的软件中,例如,SAS等。
但是,最近邻填充算法存在一些明显的缺点:1、欧式距离的计算方法;2、k的取值;3、不同的实例取值相同。
大多数最近邻填充算法使用欧式距离公式计算两事例的距离。但是,很多文献已经证明欧式距离公式不能很好的处理离散型、连续性或者混合型属性。而实际应用中,各种不同类型的属性同时存在,例如,连续属性,二进制属性,无序离散型和有序离散型等(本发明中也把非连续性属性统称为离散属性)。
kNN填充方法中的参数k的取值却是一个非常值得关注的问题。在实验中,如果k取大了,可能容易导致随机性太严重,如果k取小了,样本数目就不够了,达不到统计意义上大样本容量的标准(从非科学意思的观点来看,希望大样本容量至少要30个以上)。并且,数据集不同,最好的k值也不同,通常k的最优选取要通过实验得到,这必然要增加实验的复杂度。这是一个公开性难题,所以k的取值得到了很多专家的注意,有建议k=5(当n>100,n是数据集缺失数据的个数)。仔细的读者会发现,在整个数据集中的所有缺失事例都要取一个确定好了的k个事例对自己进行填充。这个显然不合理,因为,有可能一些事例当k=5时填充结果很好,而另外一些事例的第五个邻居可能是自己的孤立点了。因此,对一个数据集取同一个k值是不合理的,而且这样的k是非常难取到的。
发明内容
本发明的目的在于提供简单而有效的缺失值填充方法。该方法可解决距离计算不合理和最近邻k值对所有缺失实例一样的问题。本发明首先定义一种简单有效的距离计算方法,然后使用稀疏编码的方式对每个缺失实例选择合适的k值,最后通过得到的k值选择缺失实例最近的k个无缺失实例进行缺失值填充。
本发明的技术方案包括下述步骤:
(1)把属性分成五类:连续型,对称二进制型,非对称二进制型,无序离散型和有序离散型;
并定义不同类属性实例的距离计算式;
(2)对每个缺失实例选择最近的k个训练实例,同时选取最符合该缺失实例的属性;
(3)计算缺失实例跟所有训练实例的距离,选取最近的k个无缺失实例,然后使用这k个无缺失实例对缺失实例进行缺失值填充。
其中,不同类属性实例的距离计算式如下:
混合类型:其中代表事例i和j是否有缺失现象,如果有则为0,否则为1,f为在五类属性中第f类属性,n是属性个数,dijf即为事例i和j第f类属性的距离;
两个连续型:其中n代表在事例i和j中有n个连续属性,Ai,k是事例i第k个属性的属性值,是事例i中n个连续属性的平均值;
对称二进制型:非对称二进制型:其中q代表事例i和事例j的取值为“1”的个数,r代表事例i取值为“0”且事例j的取值为“1”的个数,s代表事例i取值为“1”且事例j的取值为“0”的个数,t代表事例i取值为“0”且事例j的取值为“0”的个数;
无序离散型:其中,p为无序离散型属性的数据集个数,m是两个事例中有相同属性值的个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310452387.X/2.html,转载请声明来源钻瓜专利网。