[发明专利]非固定k值的最近邻填充方法在审

专利信息
申请号: 201310452387.X 申请日: 2013-09-29
公开(公告)号: CN103544218A 公开(公告)日: 2014-01-29
发明(设计)人: 张师超;朱晓峰;刘星毅 申请(专利权)人: 广西师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 巢雄辉
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 固定 近邻 填充 方法
【说明书】:

技术领域

发明涉及计算机科学与技术领域和信息技术领域,特别是一种使用非固定k值的最近邻方法填充缺失数据的方法。

背景技术

最近邻算法(kNN)的原理可以描述如下:两个具有最近距离的事例的关系是最紧密的。因此,如果一个事例有缺失(不论缺失在条件属性还是决策属性),都可以计算它跟数据集中其他没有缺失事例的距离,然后找到跟它距离最近的事例,最后,缺失数据的值就用它最近距离的事例该属性上的值(离散属性)或者平均值(连续属性)来代替。

由于最近邻方法是基于实例学习的懒惰学习方法(Lazy Learning),因为它实际并没有根据所给训练样本构造一个分类器,而是将所有训练样本首先存储起来,当要进行分类时,就临时进行计算处理。当然,如果用户不能指定k值时,需要事先从训练样本学习k值。与积极学习(Active Learning)方法,如决策树归纳方法和神经网络方法相比,后者在进行分类前就已构造好一个分类模型;因此前者,因为是懒惰学习方法,在训练样本数目迅速增加时,会导致最近邻算法的计算量迅速增加。由于有效的索引方法支持,这个问题得到了解决。于是,最近邻算法得到了广泛的应用,例如,填充缺失数据,分类等。由于容易理解,操作简单,效果明显,无论在科研还是实际生活中都具有广泛应用。例如,在对各种事例进行分类时,最近邻算法的分类精确率在二类问题或者多类问题中都非常高。在填充缺失数据方面,最近邻方法是最热门的冷卡方法,于1967年首次提出,目前已经被嵌入一些常见的软件中,例如,SAS等。

但是,最近邻填充算法存在一些明显的缺点:1、欧式距离的计算方法;2、k的取值;3、不同的实例取值相同。

大多数最近邻填充算法使用欧式距离公式计算两事例的距离。但是,很多文献已经证明欧式距离公式不能很好的处理离散型、连续性或者混合型属性。而实际应用中,各种不同类型的属性同时存在,例如,连续属性,二进制属性,无序离散型和有序离散型等(本发明中也把非连续性属性统称为离散属性)。

kNN填充方法中的参数k的取值却是一个非常值得关注的问题。在实验中,如果k取大了,可能容易导致随机性太严重,如果k取小了,样本数目就不够了,达不到统计意义上大样本容量的标准(从非科学意思的观点来看,希望大样本容量至少要30个以上)。并且,数据集不同,最好的k值也不同,通常k的最优选取要通过实验得到,这必然要增加实验的复杂度。这是一个公开性难题,所以k的取值得到了很多专家的注意,有建议k=5(当n>100,n是数据集缺失数据的个数)。仔细的读者会发现,在整个数据集中的所有缺失事例都要取一个确定好了的k个事例对自己进行填充。这个显然不合理,因为,有可能一些事例当k=5时填充结果很好,而另外一些事例的第五个邻居可能是自己的孤立点了。因此,对一个数据集取同一个k值是不合理的,而且这样的k是非常难取到的。

发明内容

本发明的目的在于提供简单而有效的缺失值填充方法。该方法可解决距离计算不合理和最近邻k值对所有缺失实例一样的问题。本发明首先定义一种简单有效的距离计算方法,然后使用稀疏编码的方式对每个缺失实例选择合适的k值,最后通过得到的k值选择缺失实例最近的k个无缺失实例进行缺失值填充。

本发明的技术方案包括下述步骤:

(1)把属性分成五类:连续型,对称二进制型,非对称二进制型,无序离散型和有序离散型;

并定义不同类属性实例的距离计算式;

(2)对每个缺失实例选择最近的k个训练实例,同时选取最符合该缺失实例的属性;

(3)计算缺失实例跟所有训练实例的距离,选取最近的k个无缺失实例,然后使用这k个无缺失实例对缺失实例进行缺失值填充。

其中,不同类属性实例的距离计算式如下:

混合类型:其中代表事例i和j是否有缺失现象,如果有则为0,否则为1,f为在五类属性中第f类属性,n是属性个数,dijf即为事例i和j第f类属性的距离;

两个连续型:其中n代表在事例i和j中有n个连续属性,Ai,k是事例i第k个属性的属性值,是事例i中n个连续属性的平均值;

对称二进制型:非对称二进制型:其中q代表事例i和事例j的取值为“1”的个数,r代表事例i取值为“0”且事例j的取值为“1”的个数,s代表事例i取值为“1”且事例j的取值为“0”的个数,t代表事例i取值为“0”且事例j的取值为“0”的个数;

无序离散型:其中,p为无序离散型属性的数据集个数,m是两个事例中有相同属性值的个数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310452387.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top