[发明专利]基于孤立森林算法对异常点进行特征分析的方法及系统在审
申请号: | 202011480846.1 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112418355A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 周晓勇;梁淑云;刘胜;马影;陶景龙;王启凡;魏国富;殷钱安;余贤喆 | 申请(专利权)人: | 上海观安信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 张景云 |
地址: | 200333 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 孤立 森林 算法 异常 进行 特征 分析 方法 系统 | ||
本发明提供一种基于孤立森林算法对异常点进行异常特征分析的方法及系统,数据安全技术领域。包括以下步骤:对每个数据点,获取其在每棵树上的分支路径所使用的切分特征序列;依据在特征序列上出现的位置和次数,计算每个特征的重要性,对特征进行排序;依据孤立森林输出的异常概率选取异常点,再依据排序后特征序列,输出异常点的TOP特征。本发明基于孤立森林算法思想,对异常点进行深入解释,通过计算特征序列上的每个特征的重要性,然后根据重要性对特征进行排序,最后输出异常点的TOP特征,即可确定异常点的异常维度,有助于在实际业务场景中对异常点进行业务解释和归类,帮助数据分析人员和业务人员对业务异常进行总结和归纳。
技术领域
本发明涉及数据安全技术领域,具体来说是一种基于孤立森林算法对异常点进行特征分析的方法及系统。
背景技术
孤立森林算法是由南京大学周志华教授团队开发的异常检测算法,该算法适用于多维数值型特征的结构化数据,可识别出异常数据点。算法基本思路是建立多棵随机树,在每棵树上都将所有数据点归入树节点中,建立随机树的核心思想是对每个中间树节点随机选取特征,且随机选取特征的切分值,从而将该中间节点的数据点分入两个子节点;此外,根据数据点数量确定随机树的最大深度,限制树的生长;最终,使用每个数据点在所有树上的平均深度,作为计算该数据点异常概率的基础。
算法的数学理论基础是超平面,多维数值型特征构成多维空间,对随机特征使用随机值切分相当于多维空间中的一个随机超平面,将数据点分开到平面的两边,对于相对聚集的非异常数据,需要较多次的平面划分才可以将数据点分离,而对于相对离散的异常数据,仅需较少次的平面划分即可实现分离。因此,数据点所需要的切分次数可用于判别是否异常点。
算法的优点在于数据规模和特征规模的适用范围较广,既可用于高维的海量样本,也可用于较少维度的小批量数据;另外,因其基于树模型和简单的特征切分,计算速度相对于其他异常检测算法要快很多。
随机森林算法并没有解决对异常点深入解释的需要,算法只输出每个数据点的异常概率,但没有解释异常点为何异常,即在哪些特征上存在与其他数据点明显的不同。
如申请号CN202010331880.6公开的一种异常用户检测方法装置介质及电子设备,该方法包括:由第一级至目标级依次从前一级的用户行为特征数据集中搜索多个子数据集作为后一级的多个用户行为特征数据集;对搜索得到的子数据集中的用户样本进行聚类得到用户样本聚类簇后,计算子数据集的轮廓系数;获取轮廓系数大于预定阈值的子数据集,作为待检测特征数据集;将每个待检测特征数据集,输入孤立森林异常检测模型,得到预测异常用户样本;对待检测特征数据集评分,以基于评分确定第一级的用户行为特征数据集中的异常用户样本。虽然该申请通过孤立森林能够输出异常样本,但是依然存在上述无法确定异常点的异常特征的问题。
发明内容
本发明所要解决的技术问题在于现有技术中孤立森林算法未对异常点的异常特征进一步研究。
本发明通过以下技术手段实现解决上述技术问题的:
一种基于孤立森林算法对异常点进行异常特征分析的方法,包括以下步骤:
S01,在随机树生成过程中,在每个树节点存储随机切分特征;
S02,对每个数据点,获取其在每棵树上的分支路径所使用的切分特征序列;
S03,对特征序列长度设定阈值,保留长度低于阈值的特征序列;
S04,依据在特征序列上出现的位置和次数,计算每个特征的重要性,按重要性从高到低对特征进行排序;
S05,依据孤立森林输出的异常概率选取异常点,再依据步骤S04的排序后特征序列,输出异常点的TOP特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海观安信息技术股份有限公司,未经上海观安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011480846.1/2.html,转载请声明来源钻瓜专利网。