[发明专利]一种Spark平台下基于k-means聚类的异常数据清洗方法在审
申请号: | 202111042937.1 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113886289A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 王军;王志明;隋鹤铭;焦美晴 | 申请(专利权)人: | 沈阳化工大学 |
主分类号: | G06F12/123 | 分类号: | G06F12/123 |
代理公司: | 沈阳技联专利代理有限公司 21205 | 代理人: | 张志刚 |
地址: | 110142 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 spark 平台 基于 means 异常 数据 清洗 方法 | ||
一种Spark平台下基于k‑means聚类的异常数据清洗方法,涉及一种工业系统异常数据清洗方法,该方法提出了基于RDD权重值的替换算法LRU‑W,并在Spark框架中替换掉默认的缓存替换策略。提出了基于Spark平台下异常数据清洗方法,设计使用Canopy算法以及加权欧氏距离对K‑means数据聚类算法做出了一定的优化及改进。通过使用这种方法在工业大数据环境中清理异常数据,可以在数据确定的准确性和加速性方面获得良好的实验性能。
技术领域
本发明涉及一种工业系统清理异常数据方法,特别是涉及一种Spark平台下基于k-means聚类的异常数据清洗方法。
背景技术
工业系统正在与互联网和计算机技术高度紧密的进行结合,工业系统也由人工控制在向智能化方向转变。由此大量的工业数据需要计算机系统处理的问题继续解决,随之而来,工业大数据也在不断的丰富来源,拥有越来越多样化的数据,而工业生产过程中产生的数据信息也在持续不断的增长。相对而言,工业数据中会更加复杂,而且随着继续发展,工业大数据的维度也会继续增长。因此,对于工业数据的有价值信息挖掘将会决定工业智能化的发展。传统的工业数据使用本地单机存储处理,这样数据量可能相对较少,而且数据处理技术不明确,对数据的利用率低,而且由于单机数据相对较少,数据分析结果可能偏差较大。目前企业用户可以通过云端存储技术来获取到大量的数据空间,越来越多的用户使用云存储服务将本地数据转移到云存储,并实现数据共享与多个用户,同时也可以实现数据云计算,在增加数据量的同时,也解决了单机数据处理较慢的问题。
在工业数据处理方面上,与传统的Hadoop平台作为数据处理框架相比,spark生态圈技术明显更适合高效率的数据处理,spark框架在进行数据运算时使用内存空间进行计算并存储,极大的提升在进行数据处理等任务时的执行效率,但是由于内存的昂贵价值,导致了Spark框架的局限性,因此,能否合理的利用Spark框架的内存空间,将会直接影响到整个任务执行时的出具处理效率。
发明内容
本发明的目的在于提供一种Spark平台下基于k-means聚类的异常数据清洗方法,本发明提出了基于RDD权重值的替换算法LRU-W,并在Spark框架中替换掉默认的缓存替换策略。提出了基于Spark平台下异常数据清洗方法,使用Canopy算法以及加权欧氏距离对K-means数据聚类算法做出了一定的优化及改进。通过使用这种方法在工业大数据环境中清理异常数据,可以在数据确定的准确性和加速性方面获得良好的实验性能。
本发明的目的是通过以下技术方案实现的:
一种Spark平台下基于k-means聚类的异常数据清洗方法,所述方法包括以下流程:
整个任务的替换流程为:在Spark的Storage模块中 BlockManager类通过在存储模块和其他模块之间提供交互界面来管理整个存储模块;缓存替换策略将会维护RDD权重列表,为方便起见,找到权重最小的RDD;在Spark源代码中,原始块信息是使用LinkedHashMap存储,并且每个RDD的使用都按LinkedHashMap定义的迭代顺序进行记录;在任务执行期间,通过确定使用RDD的次数来确定是否需要缓存与RDD相对应的块;如果有足够的内存空间去进行缓存,则直接缓存并记录与该块相对应的信息;如果剩余空间不足,则需要替换缓存并更新权重信息;
基于K-means算法的优化与改进
首先,基于“最小最大原理”的思想选择Canopy算法的中心点,为了有效地解决在使用此方法选择中心点的过程中的局部最优问题,假设Canopy的第一个x中心点是已知的,然后准确确定x +1个中心点,首先需要确保这一点满足以下条件;
(1)
(2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳化工大学,未经沈阳化工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111042937.1/2.html,转载请声明来源钻瓜专利网。