[发明专利]基于自编码器和遗传算法的高维数据异常子空间检测方法在审
申请号: | 202110650606.X | 申请日: | 2021-06-10 |
公开(公告)号: | CN114036992A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 李嘉木;张吉;王箭;朱友文;许启强 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 编码器 遗传 算法 数据 异常 空间 检测 方法 | ||
本发明公开了一种基于自编码器和遗传算法的高维数据异常子空间检测方法。所提出的AEG模型包括两部分结构,第一部分是用神经网络构建稀疏自编码器,利用绝对正常的无标签数据迭代优化学习最佳的编码‑解码方案,将测试数据输入训练完善的稀疏自编码器中并基于重建误差得到数据点的异常分数,结合自动阈值检测高维数据的异常值。第二部分结合自适应遗传算法对稀疏自编码器检测到的异常数据集进行高维异常子空间搜索,从而实现异常点的异常子空间定位,对于得到的异常子空间特征可以投入进一步的分类训练。本发明实现了更加简单快速的异常过滤,提高了高维数据的异常值检测及异常子空间定位的效率,提高了异常现象的解释性。
技术领域
本发明涉及机器学习和异常检测技术领域,特别是涉及一种基于稀疏自编码器和自适应遗传算法的高维数据异常子空间检测方法。
背景技术
异常检测是用于发现数据中有别于大部分数据的异常模式,其所占比例极小却可能蕴涵丰富的内容。异常检测是检验数据是否有录入错误以及含有不合常理的数据的过程。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,会对结果产生不良影响。重视异常值的出现并分析其产生的原因,常常成为发现问题进而改进决策的契机。因此在某些情境下,对数据异常的检测和分析具有一定的研究意义和实用价值。
传统的全空间异常检测方法包括基于统计的方法、基于最近邻的方法、基于聚类的方法、一类分类方法等,在实际应用中传统异常检测方法被维度诅咒所禁锢,随着维度的增加,其时间复杂性和计算复杂性相应的呈指数增长。这是由于对高维数据集进行异常检测时随着维度的增加,各个点的距离区分度很小。除此之外由于较高维度的数据结构很稀疏,几乎所有的点都有可能被认为是异常点,这就使得邻近的概念变得没有意义,因此传统的全空间异常检测方法并不能很好地处理高维数据。
现有的高维数据异常值检测方法主要包括基于特征选择的方法和基于特征变换的方法。基于特征选择的方法,也称为子空间异常检测,旨在检测某些特征子集中的异常值,通常包括子空间选择和异常度计算。但是面对子空间的指数级数,这种方法对于具有大量特征的数据集实际上是不可行的。基于特征变换的方法,即基于重构的方法可以用来检测高维数据的异常,该类方法假设异常不能从低维投影有效地重构。大体有两种思路:一种是将数据映射到低维特征空间,然后在特征空间不同维度上查看每个数据点跟其它数据的偏差,即将常规的异常值检测方法应用于转换后的数据。另外一种是将数据映射到低维特征空间,然后由低维特征空间重新映射回原空间,尝试用低维特征重构原始数据,观察重构误差的大小,即使用转换的重构误差大小来衡量数据的异常度。
本发明的目的在于针对上述现有技术的不足,提供了一种基于稀疏自编码器和自适应遗传算法的高维数据异常子空间检测方法。其中稀疏自编码器用于高维数据集的降维重建和异常过滤,自适应遗传算法是在基本遗传算法的基础上可以根据个体的适应度值自适应的改变交叉概率和变异概率,能自动获取和指导优化搜索空间,可以对搜索方向进行自适应地调整,从而既保证了物种的多样性,又保证了算法的全局收敛。两者相结合可以高效地处理高维数据中的异常检测问题,同时减小异常子空间计算复杂度,实现异常点的异常子空间检测,挖掘异常点隐藏的可用信息。
发明内容
本发明可以对无标签的样本数据集进行训练,通过学习去掉数据中的冗余信息,从而保留有意义的异常信息。首先对无标签的数据进行预处理,根据数据类型确定自编码器的结构,用神经网络作为编码器和解码器进行数据的训练,将清洗过后的无标签训练样本送入网络结构进行迭代优化,学习出最佳的自编码器模型。计算样本中输入数据和输出数据的重建误差,并根据重建误差的分布情况确定正常样本和异常样本的分界阈值,将越过阈值的高维数据作为异常检测的输出。其次是利用自适应遗传算法搜索异常检测输出的异常点的异常子空间,进一步根据异常点的异常子空间特征建模将异常点分类,从而支撑高维数据的异常原因分析,提高异常的可解释性。
本发明通过下述技术方案实现:一种基于稀疏自编码器和自适应遗传算法的高维数据异常子空间检测方法,具体包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110650606.X/2.html,转载请声明来源钻瓜专利网。