[发明专利]基于孤立森林二分类异常点检测方法、信息数据处理终端在审
申请号: | 201910309830.5 | 申请日: | 2019-04-17 |
公开(公告)号: | CN110046665A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 李孝杰;李俊良;史沧红;吕建成;吴锡;周激流;刘书樵;张宪 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京元本知识产权代理事务所 11308 | 代理人: | 王红霞 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常点检测 信息数据处理 原始数据集 异常分数 二分类 孤立 分块 森林 终端 空间位置距离 异常检测过程 异常检测算法 计算资源 聚类中心 实际数据 通信处理 通信控制 信息计算 异常检测 计算块 鲁棒性 数据化 数据集 原数据 准确率 递归 构建 算法 特证 相加 | ||
1.一种基于孤立森林二分类异常点检测方法,其特征在于,所述基于孤立森林二分类异常点检测方法包括以下步骤:
第一步,将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度;
第二步,计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;
第三步,利用节点的递归方法构建孤立森林;
(1)从训练数据中随机选择Ψ个点样本点作为subsample,放入树的根节点;
(2)随机指定一个维度,在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间;
(3)以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
(4)在孩子节点中递归,不断构造新的孩子节点,直到孩子节点中只有一个数据或孩子节点已到达限定高度;
第四步,对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;
第五步,将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较。
2.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第一步将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度具体包括:
步骤一,将原始数据集进行初始的静态分块;
(1)根据原始数据集Φ={x1,x2,……,xn},将数据集Φ以一定规模划分成k个子数据集,将子数据集的下标按顺序标记为构成子数据集集合称为基础子数据集,;
(2)将这k个基础子数据集按照分别计算其块内密度,其中密度计算函数为dc为自定义的距离称为截断距离;再计算出原始数据集Φ的均值密度将计算出来的块内密度和均值密度结果进行比较
(3)如果则设置对应的子数据集的标签为1,反之亦反。
3.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第二步的计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简具体包括;
(1)对计算出来的所有块内密度数据进行排序,从小到大进行整理;
(2)将原始数据均值密度作为阈值,将均值密度插入到块内密度序列,查询出比均值密度数值更大的子数据集,以分块的具体数量作为步长,以均值密度为起始点加上一定步长为标签数据起始点至块内密度序列结尾点,记标签为0;
(3)将标记为0的子数据集去除,以减少异常检测数据量。
4.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第四步对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离具体包括;
(1)对于原始数据集进行相应特征的提取;
(2)将提取的特征信息数据化,并进行聚类操作;
(3)计算聚类中心点与其他点的空间位置距离;
(4)将计算出来的距离呈现为二维数据,将远离坐标原点的点给出一个相应较大权重分数。
5.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第五步将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较具体包括;
(1)将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数加在一起,得出最后的异常分数;
(2)将最终的异常分数与相对应的阈值进行比较,若比阈值分数大则记为最后确定的异常数据,反之亦反。
6.一种应用权利要求1~5任意一项所述基于孤立森林二分类异常点检测方法的信息数据处理终端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910309830.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油田安全突出问题检测方法
- 下一篇:海量图片标注方法