[发明专利]基于统计学习的威胁情报利用与繁殖方法有效
申请号: | 201811227305.0 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109462578B | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 王志;杨帆;李昊润;林美含;杨晨煜;刘新慧 | 申请(专利权)人: | 南开大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于统计学习的威胁情报利用与繁殖方法,应用于网络安全领域,基于有限的已知威胁情报,通过统计学习,发现大量未知的威胁情报,实现威胁情报的繁殖。为了躲避安全检测,网络攻击的变化速度越来越快,导致威胁情报的数量增多、时效性缩短。只利用已知威胁情报的安全检测模型,会受到模型退化问题的影响,准确度下降。本发明基于统计学习算法,引入可信度,代替静态阈值,提高模型对未知威胁的识别能力;该方法支持多种异构检测模型,基于可信度对比,实现多模型协同防御;该方法引入滑动时间窗概念,实现检测模型对新出现的威胁情报的快速吸收,对过期情报的有效遗忘。 | ||
搜索关键词: | 基于 统计 学习 威胁 情报 利用 繁殖 方法 | ||
【主权项】:
1.基于统计学习的威胁情报利用与繁殖方法,其特征在于,包括:第1、基本概念:(1)威胁情报:是通过大数据、分布式系统或其它特定收集方式获取的,包括漏洞、威胁、特征、行为的一系列证据的知识集合及可操作性建议;(2)不一致度量函数:是通过得分来评价待测样本与已知样本集合不一致性的函数;描述一个样本与一组已知样本的不一致性,输入是一组已知样本和一个测试样本,输出是一个数值,也叫做不一致性得分,得分越高,说明待测样本与该组样本越不一致,得分越低,说明待测样本与该组样本越一致;(3)基于阈值的检测模型:是依据不一致度量函数给出待测样本得分,将之与固定阈值比较,给出预测结果的模型;(4)P‑Value:是衡量当前样本在已知样本集合中显著度的统计量,用于多模型预测结果可信度的比较;(5)基于Conformal Prediction的统计学习算法:是将检测模型根据不一致度量函数计算的样本得分作为输入,通过计算得分高于或等于被检测样本得分的样本数量与总数的比值得到样本P‑Value的算法;第2、多模型不一致得分的计算,包括如下步骤:第2.1步、提取特征矩阵第2.1.1、设定不同的特征集合,对威胁情报提取出每个特征的特征值f;第2.1.2、将威胁情报的所有特征值组成特征向量V(f1,f2,...fn),将多个特征向量值组成特征矩阵C(V1,V2,...Vn);第2.2步、计算不一致得分第2.2.1、每一个异构的检测模型,对待测样本x,能根据情报库样本集合T,利用不一致度量函数g,计算出不一致得分α;异构模型给出的不一致得分之间不具有可比较性,不能根据不一致得分,来直接对比模型预测结果的质量;第2.2.2、不一致度量的输入:情报库样本集合T、待测样本集合X、不一致度量函数集合G:1情报库样本集合T:包含n个情报库样本ti,i∈{1,2,…,n},T={t1,…,tn};2待测样本集合X:包含n’个待测样本xj,j∈{1,2,…,n’},X={x1,…,xn’};3不一致度量函数集合G:包含m个不一致度量函数gk,k∈{1,2,…,m},G={g1,…,gm};该函数集合的输入均为一个待测样本和情报库样本集合T,返回值均为一个实数,该实数表明待测样本与情报库中已知样本的不一致性;第2.2.3、不一致度量的输出:待测样本的不一致得分集合;第2.2.4、算法流程:令tn=xi,xi∈X;T={t1,…,tn‑1},ti∈T,将待测样本xi加入情报库T中,作为第tn个样本;for i←1to n dofor j←1to m doαij←fj(T\tj,tj)end forend for;第3、基于统计学习的威胁情报利用与繁殖方法,包括如下步骤:第3.1步、计算P‑Value第3.1.1、每个检测模型将对待测样本x进行不一致度量得到对应的不一致得分α,多个检测模型从不同角度对待测样本x进行度量,得到不一致得分集合{α1,α2,…,αm};第3.1.2、将待测样本x的不一致得分α放入黑名单情报库样本的不一致得分集合中,黑名单中P‑Value值Pnj_m是小于或等于该待测样本x不一致得分的黑名单情报库样本数量与总数的比值;将待测样本x的不一致得分α放入白名单情报库样本的不一致得分集合中,白名单中P‑Value值Pnj_b是高于或等于该待测样本x不一致得分的白名单情报库样本数量与总数的比值;第3.1.3、P‑Value值越大说明该待测样本x在白名单或黑名单中的显著度越高;不同检测模型中,待测样本x的所有Pnj_m和Pnj_b是可以比较的;第3.1.4、输入:待测样本的不一致得分集合;第3.1.5、输出:待测样本x的P‑Value值Pn;第3.1.6、算法流程:for j←1to m do![]()
end for;第3.2步、基于统计学习预测待测样本第3.2.1、若P‑Value值取值于Pnj_m的最大值,则预测该待测样本x为恶意样本;若P‑Value值取值于Pnj_b的最大值,则预测该待测样本x为正常样本;第3.2.2、输入:可接受最大出错概率ε,由用户提供,表明用户能够接受的最大出错概率;第3.2.3、输出:预测结果;第3.2.4、算法流程:Pn=max{max{pn1_m,pn1_b},...,max{pnj_m,pnj_b}}ifPn>εandPn=max{pn1_m,...,pnj_m}thentn∈黑名单elsetn∈黑名单;第3.3步、基于时间窗的情报繁殖采用滑动时间窗对情报库进行繁殖,根据待测样本的检测在时间轴上的分布密度和检测时长设定滑动时间窗;时间窗的设定能够快速吸收新发现的威胁情报,并依据遗忘规则有效遗忘时间窗外的过期情报;在待测样本的时间窗内,其P‑Value值是基于上一个时间窗的情报库的样本集合计算得到的;在一个时间窗内,若待测样本被判断为恶意,同时在用户可接受的最大出错概率内,可将该待测样本吸收进情报库,实现威胁情报的繁殖;在当前时间窗结束后,下一个时间窗开始前,遗忘新时间窗之外的过期威胁情报,对新的威胁情报库重新建模。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811227305.0/,转载请声明来源钻瓜专利网。