[发明专利]一种Spark平台下基于k-means聚类的异常数据清洗方法在审

申请号：	202111042937.1	申请日：	2021-09-07
公开（公告）号：	CN113886289A	公开（公告）日：	2022-01-04
发明（设计）人：	王军;王志明;隋鹤铭;焦美晴	申请（专利权）人：	沈阳化工大学
主分类号：	G06F12/123	分类号：	G06F12/123
代理公司：	沈阳技联专利代理有限公司 21205	代理人：	张志刚
地址：	110142 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 spark 平台基于 means 异常数据清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种Spark平台下基于k-means聚类的异常数据清洗方法，其特征在于，所述方法包括以下流程：

整个任务的替换流程为：在Spark的Storage模块中 BlockManager类通过在存储模块和其他模块之间提供交互界面来管理整个存储模块；缓存替换策略将会维护RDD权重列表，为方便起见，找到权重最小的RDD；在Spark源代码中，原始块信息是使用LinkedHashMap存储，并且每个RDD的使用都按LinkedHashMap定义的迭代顺序进行记录；在任务执行期间，通过确定使用RDD的次数来确定是否需要缓存与RDD相对应的块；如果有足够的内存空间去进行缓存，则直接缓存并记录与该块相对应的信息；如果剩余空间不足，则需要替换缓存并更新权重信息；

基于K-means算法的优化与改进

首先，基于“最小最大原理”的思想选择Canopy算法的中心点，为了有效地解决在使用此方法选择中心点的过程中的局部最优问题，假设Canopy的第一个x中心点是已知的，然后准确确定x +1个中心点，首先需要确保这一点满足以下条件；

（1）

（2）

在上述条件下，最小值[d（Ax + 1，An）]表示x + 1的中心点与第一个xx中心点之间的最小距离，而Dmin（x +1）表示最佳距离d（Ax +1））被认为是所有的最小间距最大的距离；一旦你确定Canopy的中心算法,接下来的主要任务是解决这个问题的k值和t的区域半径；为了更加高效的处理这样的问题,这篇论文利用边界识别的理念来设置一个反映D变化范围的深度指示器；为了方便起见，这里将其表示为深度x，公式为：

（3）

深度值可以在公式中清楚地看到，深度Depth（x）根据x的值而变化，也就是说，仅当x的值可以反映算法的最佳聚类时；深度值深度（x）最大；得到这样的新定义：数据集C={xi∣i=1,2，n} ,对于若满足下面的条件，那么，候选值是一套Canopy的中心，Dmin(m)表明数据点是所有最短距离中的超大者；（4）。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于沈阳化工大学，未经沈阳化工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111042937.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于信任的动态分片网络安全数据融合方法
下一篇：一种化妆品玻璃瓶清洗风干一体机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F12-00 在存储器系统或体系结构内的存取、寻址或分配
G06F12-02 .寻址或地址分配；地址的重新分配
G06F12-14 .阻止存储器越权使用的保护
G06F12-16 .阻止存储物丢失的保护
G06F12-04 ..字长可变的字或字的一部分的寻址
G06F12-06 ..物理存储块定位的寻址，例如，基地址寻址、模块寻址、专用存储区寻址

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种Spark平台下基于k-means聚类的异常数据清洗方法在审

专利文献下载