[发明专利]基于孤立森林二分类异常点检测方法、信息数据处理终端在审
申请号: | 201910309830.5 | 申请日: | 2019-04-17 |
公开(公告)号: | CN110046665A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 李孝杰;李俊良;史沧红;吕建成;吴锡;周激流;刘书樵;张宪 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京元本知识产权代理事务所 11308 | 代理人: | 王红霞 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常点检测 信息数据处理 原始数据集 异常分数 二分类 孤立 分块 森林 终端 空间位置距离 异常检测过程 异常检测算法 计算资源 聚类中心 实际数据 通信处理 通信控制 信息计算 异常检测 计算块 鲁棒性 数据化 数据集 原数据 准确率 递归 构建 算法 特证 相加 | ||
本发明属于通信控制及通信处理技术领域,公开了一种基于孤立森林二分类异常点检测方法、信息数据处理终端;将原始数据集进行初始的静态平均分块,计算块内密度和均值密度;计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;利用节点的递归方法构建孤立森林;对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加与相对应的阈值进行比较。本发明有效提高异常点检测算法的准确率,能大幅度减少异常检测过程中的实际数据量,节省计算资源,并且提高了异常检测效率;增强了异常检测算法的鲁棒性。
技术领域
本发明属于通信控制及通信处理技术领域,尤其涉及一种基于孤立森林二分类异常点检测方法、信息数据处理终端。
背景技术
目前,最接近的现有技术:在常用的异常点检测算法中,有很多经典的算法,它们从不同的角度切入进行异常检测,基于神经网络的一类支持向量机的异常检测利用点与点之间空间欧氏距离的计算得到最小化的间隔,以此确定出相应的支持向量,然后在约束条件下通过目标函数最大化两支持向量之间的距离,由此可确定出分离超平面达到异常检测的目的。当然上述方法是以线性可分数据集为模型进行处理,由此衍生出对于非线性可分数据集进行处理的核方法。在对于异常点的认识上一般以出现概率较低,出现区域为数据点稀疏区域,出现位置信息为数据集边缘为特征,所以基于此的稀疏表达处理,区域密度值的计算,数据或图像的边缘信息检测都是一些具体的相关技术。对于如何进行异常检测的过程,有许多不同的方法,有将标签作为主要的区分标准的算法,有将位置和密度信息作为主要区分标准的算法,还有将数据具体参数数值作为区分标准的算法。
现有技术为了提高异常点检测算法效率,对传统的机器学习方法进行了改进,并且从深度学习框架下进行了探索。下面介绍异常点检测算法的研究与应用:
现有技术一在进行异常检测的过程是基于传统的SVM方法,自定义了一个异常分数和阈值,当数据异常分数值超过阈值时就标记为0,也即是认为其为异常数据点。此算法有能力捕获数据集的形状,因此对于强非高斯数据有更加优秀的效果,严格来讲一分类的SVM并不是一个异常点监测算法,而是一个奇异点检测算法:它的训练集不能包含异常样本,否则的话,可能在训练时影响边界的选取。
在面对多分类问题时无法直接进行有效处理。在处理线性不可分情况时会采用核方法,在选择核方法不当的情况下会造成数据失真的情况产生。
现有技术二基于高斯分布的异常检测算法,在很多场景中被广泛使用。其算法的核心思想是:给定一个m*n维训练集,将训练集转换为n维的高斯分布,通过对m个训练样例的分布分析,得出训练集的概率密度函数,即得出训练集在各个维度上的数学期望μ和方差σ2,并且利用少量的Cross Validation集来确定一个阈值ε。当给定一个新的点,根据其在高斯分布上算出的概率,及阈值ε,判断当p<ε判定为异常,当p>ε判定为非异常。
在对于将非高斯分布的数据集进行异常检测时,会进行数据的转换,此过程会大幅提升算法的时间复杂度,并且会将原有的异常数据一起转换,之后在进行异常检测过程形成对异常数据的二次操作,容易产生过拟合的状况。
现有技术三鉴于时间序列数据具有周期性(seasonal)、趋势性(trend),异常检测时不能作为孤立的样本点处理;故而Twitter的工程师提出了S-ESD(Seasonal ESD)与S-H-ESD(Seasonal Hybrid ESD)算法,将ESD扩展到时间序列数据。S-ESD算法用中位数(median)替换掉趋势分量;余项计算公式X为原时间序列数据,Sx为STL分解后的周期分量,为X的中位数。由于个别异常值会极大地拉伸均值和方差,从而导致S-ESD未能很好地捕获到部分异常点,召回率偏低。为了解决这个问题,S-H-ESD采用了更具鲁棒性的中位数与绝对中位差进行替换。
此算法面对数据集过于单一化和规律化,再对于非时间序列数据时产生的效果并不理想。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910309830.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油田安全突出问题检测方法
- 下一篇:海量图片标注方法