[发明专利]一种基于数据特征的权重来构建孤立森林的异常检测算法有效
申请号: | 202110692927.6 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113392914B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 张永军;谢炎昆 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 特征 权重 构建 孤立 森林 异常 检测 算法 | ||
本文公开了一种基于数据特征的权重来构建孤立森林的异常检测算法。该方法主要包括:通过终端设备实时采集待检测数据;对待检测数据进行特征的提取并通过熵权法计算特征权重;将采集数据作为训练集进行训练,根据特征的不同权重完成孤立树的构建并组合成为孤立森林;将采集数据作为测试数据输入孤立森林模型,得到其在每颗孤立树的路径长度,并根据权重来进行计算总得路径长度;通过路径长度计算出异常得分,与设置的阈值进行比较来判断是否异常。本发明通过为不同的特征引入不同的权重,并根据权重来建立模型和计算异常得分,异常检测效果提高明显。
技术领域
本发明涉及机器学习模型优化以及异常数据检测领域,具体涉及一种基于数据特征的权重来构建孤立森林的异常检测方法。
背景技术
在机器学习异常检测领域,怎样快速准确的对异常数据进行检测一直都是研究的重点。传统中,人工盯看监控大盘来监控数据的方式效率不仅低下,还对应着巨大的人力成本。而现存的监控数据自动监控需要管理员去挨个配置各个环境数据的合理范围,超出合理范围的会触发告警系统。但管理员对数据的合理波动范围往往并不全都清楚,随着监控设备的陡增,这项工作量也变得非常大。
现有的基于无监督学习算法的代表是孤立森林算法。首先,对训练数据集进行预处理和特征提取;然后进行孤立树的构建,构建方法是在特征集中随机选取一个特征,然后在训练数据集中该特征下的最大值和最小值间随机选择一个分割值,通过这个分割值来对数据进行划分从而构建左右子树,直到数据无法被划分或者已经达到树高限制,这种划分方式会使异常数据点在孤立树中的更靠近根节点,通过合并孤立树完成孤立森林的构建;最后计算测试数据在每个孤立树中路径长度,通过路径长度计算出异常得分,根据异常得分来判断数据是否异常。
上面传统孤立森林方法存在以下几个问题:i)数据的不同特征对于其是否异常的影响程度不同,对异常影响程度较大的应该具有更大的概率被选取作为分割特征来划分数据集,所以随机选取特征的方式会孤立树的质量变低,进而影响到算法的检测性能;ii)当不同特征对异常的影响程度不同时,权重越大的特征所代表的路径长度应该越短,不能简单的视为加一操作。
针对以上问题,本发明提出新的技术方案,包括在模型训练阶段根据特征权重来选取分割特征和在异常检测阶段根据分割特征计算路径长度。
发明内容
本发明主要解决的技术问题是提供一种基于数据特征的权重来构建孤立森林的异常检测方法,能够提升模型的异常检测效果。该方法的流程如下:
步骤S1:通过终端设备实时采集待检测数据,形成一个训练数据集合;
步骤S2:对训练数据集进行特征的提取和权重的计算;
步骤S3:根据特征权重进行孤立森林的构建;
步骤S4:根据特征权重来计算测试数据在孤立森林中的异常得分;
发明的算法1如下
算法1为孤立树的训练过程,其中,输入X为用水量时序数据的子样本集,e表示孤立树的当前高度,初始值为0,l表示的是限定孤立树的最大高度,Q表示提取出的特征集,W表示特征集对应的权重集,输出为一个孤立树。在算法中首先判断输入的树高度e是否到达树的最大高度或者输入的子样本集所包含的样本数量是否小于1,如果满足,则直接输出叶子节点,节点的Size设置为子样本集的样本数量。如果不满足,根据特征的权重来对特征进行选择,选择到特征q,之后从特征q的值中随机选择一个,把大于和小于这个值得数据进行分割,划分成两个数据集Xl,Xr,返回非叶子节点,左右子树将Xl, Xr作为输入的子样本集并将树的高度加一,递归调用训练过程,同时在此节点上为所选的特征及对应的权重和分割值进行赋值。
发明的算法2如下
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110692927.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置