[发明专利]一种行为特征数据提取的方法及装置在审
申请号: | 201810576742.7 | 申请日: | 2018-06-05 |
公开(公告)号: | CN109063721A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 雷璟;温涛 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 田卫平 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征数据 基准特征 权值向量 特征集 行为特征数据 删除 异常检测技术 用户行为数据 评估基准 输出稳定 数据对应 特征提取 提取特征 异常检测 预设距离 互信息 成邻 构建 预置 加权 反馈 分割 | ||
本发明公开了一种行为特征数据提取的方法及装置,其中,方法包括:在获取到的用户行为数据中提取特征数据,根据特征数据构建特征集;在特征集中逐一选择一特征数据为基准特征数据,按照预设距离阈值将特征集中除基准特征数据以外的特征数据加权分割成邻域和远域,通过互信息评估基准特征数据的权值;将权值反馈到基准特征数据对应的权值向量中,并在特征集中删除权值最小的特征数据;逐次删除权值最小的特征数据,在特征集对应特征数据的数目及权值向量稳定时,输出稳定后的特征数据对应的特征集和阈预置对应的权值向量。由此解决了现有技术中异常检测技术特征提取困难,对规模性异常检测效率低下的技术问题。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种行为特征数据提取的方法及装置。
背景技术
近年来国内外有关网络行为的研究一般是通过对大量业务数据进行分析研究,提炼出反映网络某些真实特性的数学模型。传统的简单基于流量统计的特征提取和异常检测存在较高的漏报率和误报率,已经不足以应对越来越复杂动态的网络环境。
网络行为的业务数据量大、处理难度高,现有的基于行为分析的异常检测技术大多只局限在某一行为层面、单个数据源。单独从一个行为层面、单个数据源出发检测到的异常往往具有片面性,并且不能使用户完整地理解异常发生的现象和本质。在协议行为层异常检测上,大部分技术都只关注传输层和网络层特征,而某些应用协议的运作过程在这些层面是难以体现的,应用层协议异常检测有待进一步研究。
由于网络行为的业务数据量大、处理难度高,异常检测技术主要用于单独层,没有将各层综合考虑。现有的异常检测技术存在特征提取困难,对规模性异常检测效率低下的技术问题。
发明内容
本发明提供一种行为特征数据提取的方法、装置、计算机可读存储介质及设备,用以解决现有技术中异常检测技术特征提取困难,对规模性异常检测效率低下的技术问题。
依据本发明的一个方面,提供了一种行为特征数据提取的方法,所述方法包括:
在获取到的用户行为数据中提取特征数据,根据特征数据构建特征集;
在特征集中逐一选择一特征数据为基准特征数据,按照预设距离阈值将特征集中除基准特征数据以外的特征数据加权分割成邻域和远域,通过互信息评估基准特征数据的权值;
将权值反馈到基准特征数据对应的权值向量中,并在特征集中删除权值最小的特征数据;
逐次删除权值最小的特征数据,在特征集对应特征数据的数目及权值向量稳定时,输出稳定后的特征数据对应的特征集和阈预置对应的权值向量。
可选的,根据特征数据构建特征集,包括:
根据每一特征数据对特征数据总体熵的影响度,对提取到的特征数据进行筛选,通过筛选后的特征数据构建候选特征集。
可选的,获取到的用户行为数据包括:流量行为层数据、协议行为层数据、以及用户行为层数据。
可选的,根据特征数据构建特征集之前,还包括:
对提取到的特征数据进行归一化、区间对齐处理。
可选的,通过互信息评估基准特征数据的权值,包括:
通过互信息评估基准特征数据的特征相关性和特征冗余度;
根据特征相关性和特征冗余度得到基准特征的权值。
依据本发明的二个方面,提供了一种行为特征数据提取的装置,所述装置包括:
特征集模块,用于在获取到的用户行为数据中提取特征数据,根据特征数据构建特征集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810576742.7/2.html,转载请声明来源钻瓜专利网。