[发明专利]一种改进的K-means异常值检测方法以及装置在审
| 申请号: | 201910263871.5 | 申请日: | 2019-04-03 |
| 公开(公告)号: | CN109978070A | 公开(公告)日: | 2019-07-05 |
| 发明(设计)人: | 陈广西;王凯 | 申请(专利权)人: | 北京市天元网络技术股份有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/26 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100193 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本公开是关于一种改进的K‑means异常值检测方法、装置、电子设备以及存储介质。其中,该方法包括:获取待检测数据集并进行K‑means聚类,得到第一聚类结果;获取待检测数据集的密度指数及距离均和,分别计算所述数据集中每个数据点的点密度及标准化欧氏距离,若数据点的点密度小于检测数据集的密度指数且标准化欧氏距离大于待检测数据集的距离均和,则判定所述数据点为孤立点;剔除所述待检测数据集中的孤立点,建立新样本集;获取所述新样本集的初始聚类中心;对所述新样本集进行K‑means聚类,得到第二聚类结果,若所述第二聚类结果优于所述第一聚类结果,则判定所述孤立点为异常值。本公开通过改进的K‑means实现了复杂数据集的异常值检测,提升了预测准确率。 | ||
| 搜索关键词: | 待检测数据 聚类结果 异常值检测 孤立点 新样本 密度指数 欧氏距离 数据点 聚类 均和 判定 标准化 初始聚类中心 改进 存储介质 电子设备 复杂数据 检测数据 数据集中 准确率 剔除 预测 | ||
【主权项】:
1.一种改进的K‑means异常值检测方法,其特征在于,所述方法包括:初始聚类步骤,获取待检测数据集并进行K‑means聚类,得到第一聚类结果;孤立点判定步骤,获取待检测数据集的密度指数及距离均和,分别计算所述数据集中每个数据点的点密度及标准化欧氏距离,若数据点的点密度小于检测数据集的密度指数且标准化欧氏距离大于待检测数据集的距离均和,则判定所述数据点为孤立点;新样本集建立步骤,剔除所述待检测数据集中的孤立点,建立新样本集;初始聚类中心计算步骤,通过预设算法,获取所述新样本集的初始聚类中心;异常值分析步骤,基于所述初始聚类中心对所述新样本集进行K‑means聚类,得到第二聚类结果,若所述第二聚类结果优于所述第一聚类结果,则判定所述孤立点为异常值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市天元网络技术股份有限公司,未经北京市天元网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910263871.5/,转载请声明来源钻瓜专利网。





