[发明专利]一种基于孤立森林算法的电力调度流数据异常检测方法有效
| 申请号: | 201711016716.0 | 申请日: | 2017-10-26 |
| 公开(公告)号: | CN107657288B | 公开(公告)日: | 2020-07-03 |
| 发明(设计)人: | 宁文元;高欣;郭子明;贾庆轩;李新鹏;马龙;穆永铮;李军良;徐建航 | 申请(专利权)人: | 国网冀北电力有限公司;北京邮电大学;北京科东电力控制系统有限责任公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/215;G06Q50/06 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100053 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 孤立 森林 算法 电力 调度 数据 异常 检测 方法 | ||
1.一种基于孤立森林算法的电力调度流数据异常检测方法,其特征在于,所述方法步骤包括:
(1)通过系统抽样方法对数据集进行训练,运用训练得到的隔离树构建多个子森林异常检测器,将多个子森林异常检测器组成基森林异常检测器,具体为:采集N条电力调度数据样本,组成原始电力调度数据集;构建一个隔离树时,从N条数据中无放回抽样,得到ψ条数据样本,作为这个隔离树的训练样本;在每个隔离树样本中,随机选一个特征,并在这个特征的最小值与最大值之间随机选一个值,对样本进行二叉划分,将样本中小于该值的数据样本划分到节点的左边,大于等于该值的数据样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集;分别在左右两边的数据集上重复上面的过程,直接达到终止条件,终止条件有两个:
1)数据集无法继续分裂,即该数据集只包含一条样本或者是所包含的样本相同;
2)树的高度达到log2(ψ);
运用系统抽样的方法将隔离树分为n组,构建n个子森林异常检测器,记为iForest(1)~iForest(n),n个子森林异常检测器中的隔离树共同组成了基森林异常检测器;
(2)通过基森林异常检测器判断进入滑动窗口数据的异常情况,具体为:将基森林异常检测器应用于滑动窗口的流数据,即对每个到达滑动窗口的数据,通过基森林异常检测器判断其异常状况;基森林异常检测器的输入为进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数与电力调度系统业务相关的进程实时资源占用数据;输出为(0,1)范围内的数值,表明流数据为正常状态的数值范围为(0,h],流数据为异常范围的数值范围为(h,1),h值在原始数据集训练初始基检测器之后,用训练得到的检测器计算历史数据的异常得分,按照历史数据异常比例取异常得分分位数得出:
h=-QUARTILE(-F(X),100*(1-c))
其中:y=QUARTILE(a,b)为分位数函数;z=F(x)为基森林检测器检测函数;X为隔离树的训练样本集;c为训练样本集中的异常样本比例;
(3)对进入滑动窗口的流数据进行抽样,判断其是否存入缓冲区;当滑动窗口中数据充满时,实时判断此时滑动窗口数据异常率;
(4)触发检测器更新的判断;
(5)基于更新数据集计算每个子森林异常检测器和基森林异常检测器异常率差值,去除差值大的子森林异常检测器,同时构建多个子森林异常检测器进行补充,以组成新的基森林异常检测器,实现更新,具体为:
分别运用基森林检测器和子森林检测器,计算数据集X*的数据异常率,记为u_all和u(i),设ri为第i个子森林异常检测器iForest(i)的异常率偏差:
将n个子森林异常检测器的异常率偏差按从大到小的顺序排列,取前k(0<k<n)个作为待更新的子森林异常检测器;
运用当前滑动窗口中的数据构建k个子森林异常检测器,取代待更新子森林异常检测器,同时更新基森林检测器中的隔离树,完成对基森林检测器的更新,清空滑动窗口和缓存区的数据。
2.根据权利要求1所述的方法,其特征在于,对进入滑动窗口的流数据进行抽样,判断其是否存入缓冲区;当滑动窗口中数据充满时,实时判断此时滑动窗口数据异常率,具体说明如下:对于新到达滑动窗口的数据,基于伯努利分布进行简单随机抽样判断该数据是否进入缓存区,来实现对缓存区的数据填充;如果滑动窗口数据已满,新到达的数据将取代最早进入滑动窗口的数据,同时实时计算此时刻滑动窗口中的数据异常率,记为u′:
其中,n为当前滑动窗口中异常数据个数,nall为当前滑动窗口中所有数据个数。
3.根据权利要求1所述的方法,其特征在于,触发检测器更新的判断,具体说明如下:
当满足以下两个条件中的任意一个时,对异常检测器进行更新:
1)当前滑动窗口数据异常率u′大于异常率阈值u,此时用于更新基森林异常检测器的数据集X*为滑动窗口中的数据与缓存区中的数据的并集;
2)缓存区中数据已满,此时用于更新基森林检测器的数据集X*为缓存区中数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网冀北电力有限公司;北京邮电大学;北京科东电力控制系统有限责任公司,未经国网冀北电力有限公司;北京邮电大学;北京科东电力控制系统有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711016716.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移印机的托板
- 下一篇:一种医疗检测用漂烘装置





