[发明专利]一种基于特征选择耦合相似度的数据异常检测方法在审
| 申请号: | 202110205936.8 | 申请日: | 2021-02-24 |
| 公开(公告)号: | CN112926650A | 公开(公告)日: | 2021-06-08 |
| 发明(设计)人: | 郭鹏飞;周新宇 | 申请(专利权)人: | 辽宁工程技术大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 125105 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 选择 耦合 相似 数据 异常 检测 方法 | ||
本发明提供一种基于特征选择耦合相似度的数据异常检测方法,涉及异常值检测技术领域。该方法首先使用后向搜索方法选择特征子集,再利用信息增益来评估特征子集,经过不断迭代循环的过程选出最佳特征子集,降低原始数据集的维度;在此基础上进行耦合相似度计算,有效捕获数据内部和外部的关系,得出属性值‑属性间‑对象的耦合相似度,最后利用相似度及距离在特定聚类算法中进行应用,得出最后的聚类结果,以小类最为异常,其中的数据对象作为异常值。本发明可以使得到的对象间的相似性更加准确,对于后续的分类有很大的帮助,减少分类的假阳性率,使分类结果更加的准确,更利于确定被视作异常的小类,使异常检测的结果偏差更小,效率更高。
技术领域
本发明涉及异常值检测技术领域,尤其涉及一种基于特征选择耦合相似度的数据异常检测方法。
背景技术
适当的相似性度量在数据分析、学习和处理中总是起着至关重要的作用。无监督学习中测量分类数据的内在相似性还没有得到充分解决,根据相似性进行异常检测的工作做的更是非常少。近些年来,相似性分析一直是包括数据挖掘在内的几个领域中具有重要实际意义的问题。通过定义属性值之间的某些相似性度量,它衡量两个数据对象之间关系的强度:两个对象彼此越相似,相似性就越大。
同时,随着计算机和数据库技术发展迅速,数据积累的速度是人类数据处理能力无法比拟的。数据挖掘作为数据库、机器学习和统计学的多学科联合努力,正在倡导将堆积如山的数据转化为块状物。研究人员和实践者认识到,为了有效地使用数据挖掘工具,数据预处理对于成功的数据挖掘至关重要。在数据挖掘的数据预处理中,特征选择是一项重要且常用的技术。它减少了特征的数量,删除了不相关的、冗余的或有噪声的数据,并为应用程序带来了立竿见影的效果:加快了数据挖掘算法,提高了挖掘性能,如预测的准确性和结果的可理解性。特征子集的最优性由评估标准来衡量。随着一个域的维数的增加,特征的数量也随之增加。寻找最佳特征子集通常是棘手的,许多与特征选择相关的问题已被证明是NP难的,所谓NP难就是以多项式的时间运行非确定性的算法,算法要经历推测和验证阶段。典型的特征选择过程包括四个基本步骤,即子集生成、子集评估、停止标准和结果。
在以往的相似性度量中,大多数是基于所有特征,并没有减少特征的维数,如CMS方法和COS方法。CMS方法在全维数上计算非独立同分布数据的耦合相似性,并在实验中采用CMS及其他相似性度量方法与谱聚类和K-means结合的方式,从各个维度证实了CMS的有效性;COS方法通过对比基于幂集的IRSP,基于全集的IRSU,基于连接集的IRSJ以及基于交集的IRSI,证实在效率同等的情况下,IRSI的时间复杂度是最小的,原因就是基于交集的方法使得对象的数目最少,从而降低了时间复杂度。相似性计算的方式有很多,常见的有余弦相似度计算,基于Jaccard系数的相似度计算以及基于皮尔逊系数的相似性计算等,不同的相似度计算方式有各自的优势和缺点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110205936.8/2.html,转载请声明来源钻瓜专利网。





