[发明专利]基于EM算法和KNN算法的数据预处理方法在审
申请号: | 201911392045.7 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111046977A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 唐雪飞;黄永鑫;蒲高飞;胡茂秋 | 申请(专利权)人: | 成都康赛信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/215 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 刘冬静 |
地址: | 610054 四川省成都市成华区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 em 算法 knn 数据 预处理 方法 | ||
本发明公开了一种基于EM算法和KNN算法的数据预处理方法,包括以下步骤:S1、将原始数据集按照属性值是否缺失分为完备数据子集和不完备数据子集,将完备数据子集作为EM算法的训练样本,使用EM算法进行聚类;S2、使用KNN算法在聚类结果上进行缺失值填补。本发明在使用KNN进行缺失值填补之前,先使用EM算法对原始数据集进行聚类分析,然后再在得到的聚类结果之上使用KNN来进行缺失值填补,操作简单、填充准确率高。
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于EM算法和KNN算法的数据预处理方法。
背景技术
财务报表分析是对企业财务报表所提供的数据进行加工、分析、比较、评价和解释。如果说,记帐、编表属于会计的反映功能,那么,财务报表分析则隶于解释和评价功能。财务报表分析的目的在于,判断企业的财务状况和诊察企业经营管理的得失。通过分析,可以判断企业财务状况是否良好,企业的经营管理是否健全,企业业务前景是否光明,同时,还可以通过分析,找出企业经营管理的症结,提出解决问题的办法。财务报表分析的方法,主要有趋势分析法和比率分析法两种。趋势分析法是指根据连续几期的财务报表,比较各个项目前后期的增减方向和倾度,从而揭示财务和经营上的变化和趋向。
数据挖掘需要大量的数据资源,在实际应用中,来自不同原始数据库的数据,由于数据库初始的定义或结构的不同,存在大量的不完备数据、噪声数据、异构数据、错误数据等,然而大部分的数据挖掘算法通常都是基于干净、完备的数据集。因此,实际系统中的数据常常无法直接应用于数据分析,增加了数据挖掘的难度,而且未处理的数据会严重影响知识发现的结果。由此可知,数据预处理对数据挖掘至关重要。有统计表示,数据预处理占了整个数据挖掘过程的60%,而后的学习训练只占整个工作的10%。数据预处理的好坏会直接影响数据的质量,最终左右后续数据挖掘的结果。有效的数据预处理,能改善整体数据的质量,不仅节约空间成本和时间成本,而且有利于得到好的数据挖掘结果来进行决策指导和价值评估。
在数据挖掘的过程中经常遇到各种数据质量问题,其中数据不完备问题尤为突出。数据缺失的现象普遍存在,例如在机器学习领域常用的UCI数据库中,包含缺失数据的数据集占了40%以上。目前对数据不完备问题的处理方法大致可分为三种:删除法、填补法和保留原始信息的不处理方法。删除法的应用非常局限,采用删除法应对数据不完备问题会造成数据集原有信息的丢失,容易导致数据有用信息的浪费,同时信息的丢弃一定程度地影响了数据挖掘结果的正确性和客观性。所以删除法主要适用于缺失模式为完全随机缺失且缺失数据比例较小的数据集。填补法是相对科学有效的一种处理方法,它充分利用数据本身的信息来进行填补,使估计的填补值尽可能地接近原始的数据真实值。相比于前两种方法对原始数据集的改动,不处理的方法保留了数据集原有的状态。该方法利用机器学习技术本身来弱化数据缺失的影响,从不完备数据集上直接进行学习,这些学习方法有贝叶斯信念网络、粗糙集方法和人工神经网络等。
聚类是一种典型的无监督学习方法。在没有任何先验知识的指导下,把相似的实例对象通过静态分类的方法分成不同的类别,使得同一类内的实例对象尽可能的相似,不同类之间的区别尽可能的大。KNN算法用于缺失值填补,得到了K最近邻填补。K最近邻填补是在完备数据集中寻找K个与不完备对象最相近的完备对象,利用这K个邻居的信息来对缺失值进行填补。相比于其他的缺失值填补算法,K最近邻填补算法的优点是操作简单、填充准确率高,但该算法由于需要人工设定K值,而不同的训练数据所需设定的K值不同,操作麻烦。
发明内容
本发明的目的在于克服现有技术的不足,提供一种在使用KNN进行缺失值填补之前,先使用EM算法对原始数据集进行聚类分析,然后再在得到的聚类结果之上使用KNN来进行缺失值填补,操作简单、填充准确率高的基于EM算法和KNN算法的数据预处理方法。
本发明的目的是通过以下技术方案来实现的:基于EM算法和KNN算法的数据预处理方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都康赛信息技术有限公司,未经成都康赛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911392045.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能井盖
- 下一篇:电动车充电门充电口充电枪智能识别方法和装置