[发明专利]基于孤立森林算法对异常点进行特征分析的方法及系统在审
申请号: | 202011480846.1 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112418355A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 周晓勇;梁淑云;刘胜;马影;陶景龙;王启凡;魏国富;殷钱安;余贤喆 | 申请(专利权)人: | 上海观安信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 张景云 |
地址: | 200333 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 孤立 森林 算法 异常 进行 特征 分析 方法 系统 | ||
1.一种基于孤立森林算法对异常点进行异常特征分析的方法,其特征在于,包括以下步骤:
S01,在随机树生成过程中,在每个树节点存储随机切分特征;
S02,对每个数据点,获取其在每棵树上的分支路径所使用的切分特征序列;
S03,对特征序列长度设定阈值,保留长度低于阈值的特征序列;
S04,依据在特征序列上出现的位置和次数,计算每个特征的重要性,按重要性从高到低对特征进行排序;
S05,依据孤立森林输出的异常概率选取异常点,再依据步骤S04的排序后特征序列,输出异常点的TOP特征。
2.根据权利要求1所述的一种基于孤立森林算法对异常点进行特征分析的方法,其特征在于,所述步骤S01中随机树生成的算法逻辑为:对于输入数据集,如果无法切分,则返回外部节点,外部节点的属性size值等于数据集的大小;如果可以切分,则随机选取一个特征,在该特征的最大值和最小值之间随机选取一个切分值,特征值小于该切分值的数据点放入左子节点,大于等于该切分值的数据点放入右子节点,返回内部节点,内部节点的属性包含左子节点、右子节点、切分特征、切分值。
3.根据权利要求1所述的一种基于孤立森林算法对异常点进行特征分析的方法,其特征在于,所述步骤S02中获取切分特征序列的递归算法逻辑为:输入包含某个数据点、某个树节点、树最大深度、该数据点在该树节点时的当前深度、该数据点在该树节点时的当前切分特征序列;输出为切分特征序列;如果数据点位于外部节点或已达最大深度,则返回当前切分特征序列;如果数据点位于内部节点且未达最大深度,则将节点的切分特征放入当前切分特征序列尾部,同时对内部节点存储的切分值和数据点切分特征的值进行大小比较,递归到内部节点的左子节点或右子节点,继续生成切分特征序列。
4.根据权利要求1所述的一种基于孤立森林算法对异常点进行特征分析的方法,其特征在于,将特征序列上的特征分为终止特征和非终止特征;所述步骤S04中通过以下公式对特征重要性进行量化:
其中:是对于数据点d而言特征f的重要性;
因子的分子是对于数据点d而言特征f在所有切分特征序列中出现为终止特征的次数,分母是对于数据点d而言所有特征出现为终止特征的次数之和,即切分特征序列的总数;因子代表了特征f在所有特征中终止随机树生长的次数比例。
因子的分子与因子的分子相同,分母是对于数据点d而言特征f在所有切分特征序列中的出现次数终止特征和非终止特征的次数之和;因子代表了特征f在所有被随机选中的机会里终止随机树生长的概率。
5.根据权利要求4所述的一种基于孤立森林算法对异常点进行特征分析的方法,其特征在于,所述终止次数总和的计算过程为:
设计3个字典,初始化三个字典类型属性,包括特征重要性字典、特征出现次数字典、终止特征次数字典;三个字典的键都是特征编号;
对数据点在所有随机树上获取的切分特征序列集循环遍历得到每一个切分特征序列,对每一个切分特征序列循环遍历得到特征编号,在特征出现次数字典中对该特征编号的值加1,对特征序列最后一个特征,在终止特征次数字典对该特征编号的值加1。
对终止特征次数字典的所有值求和,得到终止次数总和。
6.一种基于孤立森林算法对异常点进行异常特征分析的系统,其特征在于,包括:
随机树生成模块,在随机树生成过程中,在每个树节点存储随机切分特征;
特征序列获取模块,对每个数据点,获取其在每棵树上的分支路径所使用的切分特征序列;
特征序列长度限定模块,对特征序列长度设定阈值,保留长度低于阈值的特征序列;
特征重要性计算模块,依据在特征序列上出现的位置和次数,计算每个特征的重要性,按重要性从高到低对特征进行排序;
异常特征输出模块,依据孤立森林输出的异常概率选取异常点,再依据特征重要性计算模块中排序后特征序列,输出异常点的TOP特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海观安信息技术股份有限公司,未经上海观安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011480846.1/1.html,转载请声明来源钻瓜专利网。