[发明专利]一种数据的聚类方法在审
| 申请号: | 201910539920.3 | 申请日: | 2019-06-21 |
| 公开(公告)号: | CN110232420A | 公开(公告)日: | 2019-09-13 |
| 发明(设计)人: | 王伟;郭亮;储泽楠;王雅淇;常庆丽;赵凯;韩毅 | 申请(专利权)人: | 安阳工学院 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 安阳金泰专利代理事务所(普通合伙) 41150 | 代理人: | 王晖 |
| 地址: | 455000 河*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明专利公开了一种数据聚类方法,首先采用BP神经网络利用完整的数据集作为样本集来进行训练,进行缺失属性值的预测补全。然后对异常数据去噪算法会根据补全的数据,采用K‑means算法进行初始算法聚类,找出落在簇集合之外的离群点,然后在用BP神经网络对离群点进行校验,判断是否是噪声点,保证数据的光滑性。最后根据前两步的算法预处理后的数据集进行K‑means算法进行聚类分析。本方法比原始的算法精确度有很大提高。 | ||
| 搜索关键词: | 算法 数据集 聚类 算法预处理 聚类分析 去噪算法 数据聚类 异常数据 校验 光滑性 样本集 噪声点 集合 预测 保证 | ||
【主权项】:
1.一种数据的聚类方法,其特征在于:依次通过以下算法对数据聚类:属性缺失补全算法、异常数据去噪算法、修复后的数据聚类算法,其中:属性缺失补全算法采用BP神经网络利用完整的数据集作为样本集来进行训练,进行缺失属性值的预测补全,步骤如下:输入:样本集D=
;输出:样本集B=
;具体的处理步骤如下:1.1扫描数据集一遍,找出数据集的记录数记做N,以及数据集中属性不完整的数据集记做Q=
;1.2通过判断N的大小,如果N是大于100000条记录的数据,那么随机选取20%作为神经网络的训练样本,如果N是小于等于100000条记录的数据,则选取60%的数据集作为训练样本集;1.3构造三层BP神经网络模型,分别为输入层,隐含层,和输出层;1.4网络设置S型传递函数如下:
1.5设置反误差输出来不断调节网络权值和阈值使误差函数E达到极小,其中误差函数E设置函数如下:
其中ti为期望输出;Qi为网络的计算输出;1.6根据第二步中选取的所有样本集,进行网络的建模,该模型根据数据集的属性作为输入,输出的节点个数设置为1,隐含层的设计使用经验公式:
其中m为输入层神经元个数,n为输出层神经元个数,b为[1,10]之间的常数;本算法中设置b=3;1.7网络隐层和输出层激励函数分别为tansig和logsig函数,网络训练函数为traingdx,网络性能函数为mse,网络迭代次数epochs为50000次,期望误差goal为0.000000001,学习速率lr为0.01;1.8根据上述步骤网络模型的设置构造好网络模型,进行模型的训练并以此对Q=
中的缺失数据集进行预测,构造成完整的数据集记做B=
;异常数据去噪算法步骤如下:2.1从步骤1.8中得到完整的数据集B=
,对数据采用K‑means算法进行初始算法聚类;2.2找出落在簇集合之外的点称为离群点记做
2.3对每个离群点进行BP神经网络预测相应的属性值与现有的数值做对比,定义一个误差范围
,如果
大于给定的阀值就认为是噪声点进行噪声处理,最后形成无噪声的数据集
;修复后的数据聚类算法:采用经典的K‑means算法进行聚类分析,具体步骤如下:3.1从A中随机选取k个样本作为初始向量即为初始的簇中心记为向量,
3.2令
3.3循环
,往下执行;3.4计算
与各个向量
的距离记做
;3.5根据距离最近的中心点
确定的簇标记:
;3.6将样本
归为相应的簇:
;3.7结束循环;3.8循环令
,执行;3.9计算新的簇类向量
;3.10如果
,这个时候需要将簇类向量更新为
;3.11否则保持当前簇类向量不变;3.12结束循环,直到簇类向量不再变更为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安阳工学院,未经安阳工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910539920.3/,转载请声明来源钻瓜专利网。





