[发明专利]一种数据的聚类方法在审

申请号：	201910539920.3	申请日：	2019-06-21
公开（公告）号：	CN110232420A	公开（公告）日：	2019-09-13
发明（设计）人：	王伟;郭亮;储泽楠;王雅淇;常庆丽;赵凯;韩毅	申请（专利权）人：	安阳工学院
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	安阳金泰专利代理事务所(普通合伙) 41150	代理人：	王晖
地址：	455000 河***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明专利公开了一种数据聚类方法，首先采用BP神经网络利用完整的数据集作为样本集来进行训练，进行缺失属性值的预测补全。然后对异常数据去噪算法会根据补全的数据，采用K‑means算法进行初始算法聚类，找出落在簇集合之外的离群点，然后在用BP神经网络对离群点进行校验，判断是否是噪声点，保证数据的光滑性。最后根据前两步的算法预处理后的数据集进行K‑means算法进行聚类分析。本方法比原始的算法精确度有很大提高。
搜索关键词：	算法数据集聚类算法预处理聚类分析去噪算法数据聚类异常数据校验光滑性样本集噪声点集合预测保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种数据的聚类方法，其特征在于：依次通过以下算法对数据聚类：属性缺失补全算法、异常数据去噪算法、修复后的数据聚类算法，其中：属性缺失补全算法采用BP神经网络利用完整的数据集作为样本集来进行训练，进行缺失属性值的预测补全，步骤如下：输入：样本集D=;输出：样本集B=；具体的处理步骤如下：1.1扫描数据集一遍，找出数据集的记录数记做N，以及数据集中属性不完整的数据集记做Q=；1.2通过判断N的大小，如果N是大于100000条记录的数据，那么随机选取20%作为神经网络的训练样本，如果N是小于等于100000条记录的数据，则选取60%的数据集作为训练样本集；1.3构造三层BP神经网络模型，分别为输入层，隐含层，和输出层；1.4网络设置S型传递函数如下：1.5设置反误差输出来不断调节网络权值和阈值使误差函数E达到极小，其中误差函数E设置函数如下：其中t_i为期望输出；Q_i为网络的计算输出；1.6根据第二步中选取的所有样本集，进行网络的建模，该模型根据数据集的属性作为输入，输出的节点个数设置为1，隐含层的设计使用经验公式：其中m为输入层神经元个数,n为输出层神经元个数，b为[1,10]之间的常数；本算法中设置b=3；1.7网络隐层和输出层激励函数分别为tansig和logsig函数，网络训练函数为traingdx,网络性能函数为mse，网络迭代次数epochs为50000次,期望误差goal为0.000000001,学习速率lr为0.01；1.8根据上述步骤网络模型的设置构造好网络模型，进行模型的训练并以此对Q=中的缺失数据集进行预测，构造成完整的数据集记做B=；异常数据去噪算法步骤如下：2.1从步骤1.8中得到完整的数据集B=，对数据采用K‑means算法进行初始算法聚类；2.2找出落在簇集合之外的点称为离群点记做2.3对每个离群点进行BP神经网络预测相应的属性值与现有的数值做对比，定义一个误差范围，如果大于给定的阀值就认为是噪声点进行噪声处理，最后形成无噪声的数据集；修复后的数据聚类算法：采用经典的K‑means算法进行聚类分析，具体步骤如下：3.1从A中随机选取k个样本作为初始向量即为初始的簇中心记为向量，3.2令3.3循环，往下执行；3.4计算与各个向量的距离记做；3.5根据距离最近的中心点确定的簇标记：；3.6将样本归为相应的簇：；3.7结束循环；3.8循环令，执行；3.9计算新的簇类向量；3.10如果，这个时候需要将簇类向量更新为；3.11否则保持当前簇类向量不变；3.12结束循环，直到簇类向量不再变更为止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安阳工学院，未经安阳工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910539920.3/，转载请声明来源钻瓜专利网。

上一篇：一种边坡岩石类别自动识别的方法
下一篇：一种逐级合并OD流向时空联合聚类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种数据的聚类方法在审

专利文献下载