[发明专利]一种数据的聚类方法在审

专利信息
申请号: 201910539920.3 申请日: 2019-06-21
公开(公告)号: CN110232420A 公开(公告)日: 2019-09-13
发明(设计)人: 王伟;郭亮;储泽楠;王雅淇;常庆丽;赵凯;韩毅 申请(专利权)人: 安阳工学院
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 安阳金泰专利代理事务所(普通合伙) 41150 代理人: 王晖
地址: 455000 河*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要: 本发明专利公开了一种数据聚类方法,首先采用BP神经网络利用完整的数据集作为样本集来进行训练,进行缺失属性值的预测补全。然后对异常数据去噪算法会根据补全的数据,采用K‑means算法进行初始算法聚类,找出落在簇集合之外的离群点,然后在用BP神经网络对离群点进行校验,判断是否是噪声点,保证数据的光滑性。最后根据前两步的算法预处理后的数据集进行K‑means算法进行聚类分析。本方法比原始的算法精确度有很大提高。
搜索关键词: 算法 数据集 聚类 算法预处理 聚类分析 去噪算法 数据聚类 异常数据 校验 光滑性 样本集 噪声点 集合 预测 保证
【主权项】:
1.一种数据的聚类方法,其特征在于:依次通过以下算法对数据聚类:属性缺失补全算法、异常数据去噪算法、修复后的数据聚类算法,其中:属性缺失补全算法采用BP神经网络利用完整的数据集作为样本集来进行训练,进行缺失属性值的预测补全,步骤如下:输入:样本集D=;输出:样本集B=;具体的处理步骤如下:1.1扫描数据集一遍,找出数据集的记录数记做N,以及数据集中属性不完整的数据集记做Q=;1.2通过判断N的大小,如果N是大于100000条记录的数据,那么随机选取20%作为神经网络的训练样本,如果N是小于等于100000条记录的数据,则选取60%的数据集作为训练样本集;1.3构造三层BP神经网络模型,分别为输入层,隐含层,和输出层;1.4网络设置S型传递函数如下:1.5设置反误差输出来不断调节网络权值和阈值使误差函数E达到极小,其中误差函数E设置函数如下:其中ti为期望输出;Qi为网络的计算输出;1.6根据第二步中选取的所有样本集,进行网络的建模,该模型根据数据集的属性作为输入,输出的节点个数设置为1,隐含层的设计使用经验公式:其中m为输入层神经元个数,n为输出层神经元个数,b为[1,10]之间的常数;本算法中设置b=3;1.7网络隐层和输出层激励函数分别为tansig和logsig函数,网络训练函数为traingdx,网络性能函数为mse,网络迭代次数epochs为50000次,期望误差goal为0.000000001,学习速率lr为0.01;1.8根据上述步骤网络模型的设置构造好网络模型,进行模型的训练并以此对Q=中的缺失数据集进行预测,构造成完整的数据集记做B=;异常数据去噪算法步骤如下:2.1从步骤1.8中得到完整的数据集B=,对数据采用K‑means算法进行初始算法聚类;2.2找出落在簇集合之外的点称为离群点记做2.3对每个离群点进行BP神经网络预测相应的属性值与现有的数值做对比,定义一个误差范围,如果大于给定的阀值就认为是噪声点进行噪声处理,最后形成无噪声的数据集;修复后的数据聚类算法:采用经典的K‑means算法进行聚类分析,具体步骤如下:3.1从A中随机选取k个样本作为初始向量即为初始的簇中心记为向量,3.2令3.3循环,往下执行;3.4计算与各个向量的距离记做;3.5根据距离最近的中心点确定的簇标记:;3.6将样本归为相应的簇:;3.7结束循环;3.8循环令,执行;3.9计算新的簇类向量;3.10如果,这个时候需要将簇类向量更新为;3.11否则保持当前簇类向量不变;3.12结束循环,直到簇类向量不再变更为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安阳工学院,未经安阳工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910539920.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top