[发明专利]噪声点检测方法及装置有效
申请号: | 201710138210.0 | 申请日: | 2017-03-09 |
公开(公告)号: | CN106991436B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 高睿;于福超 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅宁 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 噪声 检测 方法 装置 | ||
本公开涉及一种噪声点检测方法及装置。方法包括:利用聚类算法对原始数据点进行聚类,得到N个原始簇,并将每个原始簇的簇类型标记为第一簇类型;针对每个原始簇,从归类为该原始簇的原始数据点中确定出不符合针对该原始簇的数据点有效条件的边缘数据点,将所确定出的每个边缘数据点各自作为扩展簇,并将每个扩展簇的簇类型标记为第二簇类型;重复进行将距离最近的两个簇合并为一个新簇,并对该新簇标记簇类型的操作,直到满足预设的合并终止条件为止;在合并终止后,将归类为第二簇类型的簇中的数据点确定为是噪声点。由此,能够提高噪声点检测的准确率及效率。
技术领域
本公开涉及聚类领域,具体地,涉及一种噪声点检测方法及装置。
背景技术
K-means是著名的聚类算法,其算法基本思想是:算法接受参数k;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的,这些聚类被称为簇。
虽然K-means具有计算时间短、速度快的特点,但是,其也存在一些缺点,例如,对异常值敏感。所谓的异常值是指数据的噪声点(离群点)。噪声指在一组数据中无法解释的数据变动,就是一些不和其他数据相一致的数据。由于K-means算法特点,导致其对离群点敏感(会使某个或是某几个中心点偏移),所以去除离群点对算法来说很重要。现有的方法中,去除噪声点的方法是设置阈值,比如设置阈值为一个簇的半径的1.5倍,如果有点超过这个阈值则认为是噪声。这种方法的问题在于,设定一个准确、合理的阈值是比较困难的,特别是当数据比较复杂、维度比较多的时候。并且,由于不同的人可能会设定不同的阈值,这就导致噪声点检测的准确性完全依赖于阈值设定的准确性及合理性。一旦阈值设定得不合适,则会直接降低噪声点检测结果的准确性及可靠性。另外,这种噪声点检测算法的复杂度比较高。
发明内容
为了克服相关技术中存在的问题,本公开的目的是提供一种噪声点检测方法及装置。
为了实现上述目的,本公开提供一种噪声点检测方法,包括:利用聚类算法对原始数据点进行聚类,得到N个原始簇,并将每个所述原始簇的簇类型标记为第一簇类型,其中,N为大于或等于2的自然数;针对每个原始簇,从归类为该原始簇的原始数据点中确定出不符合针对该原始簇的数据点有效条件的边缘数据点;将所确定出的每个边缘数据点各自作为扩展簇,并将每个所述扩展簇的簇类型标记为第二簇类型;重复进行将距离最近的两个簇合并为一个新簇,并对所述新簇标记簇类型的操作,直到满足预设的合并终止条件为止,其中,当被标记为第一簇类型的簇与被标记为第二簇类型的簇合并时,所得新簇的簇类型被标记为第一簇类型;当两个被标记为第二簇类型的簇合并时,所得新簇的簇类型被标记为第二簇类型;当两个被标记为第一簇类型的簇合并时,所得新簇的簇类型被标记为第一簇类型;在合并终止后,将归类为第二簇类型的簇中的数据点确定为是噪声点。
可选地,在所述将所确定出的每个边缘数据点各自作为扩展簇,并将每个所述扩展簇的簇类型标记为第二簇类型的步骤之前,所述方法还包括:
针对每个原始簇,确定该原始簇中的边缘数据点总数占归类为该原始簇的原始数据点总数的占比是否满足预设的占比条件;
当存在不满足所述占比条件的原始簇时,调整针对该原始簇的数据点有效条件,并重新执行所述从归类为该原始簇的原始数据点中确定出不符合针对该原始簇的数据点有效条件的边缘数据点的步骤,直到全部原始簇均满足所述占比条件为止。
可选地,所述数据点有效条件为:数据点与所述原始簇的簇中心之间的距离小于或等于针对该原始簇预设的距离阈值,其中,所述距离阈值小于归类为该原始簇且距离该原始簇的簇中心最远的原始数据点到该原始簇的簇中心之间的距离。
可选地,所述合并终止条件为:任意两个被标记为第一簇类型的簇被合并。
可选地,所述聚类算法为K-means聚类算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710138210.0/2.html,转载请声明来源钻瓜专利网。