[发明专利]一种基于特征效率的加密流量分析特征选择方法有效
申请号: | 201810896859.3 | 申请日: | 2018-08-08 |
公开(公告)号: | CN109194622B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 马小博;安冰玉;师马玮;焦洪山;赵延康;李剑锋;彭嘉豪 | 申请(专利权)人: | 西安交通大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于特征效率的加密流量分析特征选择方法,首先定义特征效率的计算方法F(f);然后两类样本上计算每个特征的特征效率,选择特征效率最大的一维特征,并且移除这维特征的值域交叠之外的样本,并记录移除的样本个数,如此循环,直到所有特征被计算完。然后根据预先规定的特征个数或者特征效率的阈值选择特征。本发明能够在给定最大特征集的前提下,有效的计算每个特征的特征效率,根据给定的特征效率阈值或者规定的特征数目筛选特征,有利于提高网站指纹识别技术的识别准确率,并且节省分类模型构建过程中消耗的时间和空间成本。 | ||
搜索关键词: | 一种 基于 特征 效率 加密 流量 分析 选择 方法 | ||
【主权项】:
1.一种基于特征效率的加密流量分析特征选择方法,其特征在于,包括以下步骤:步骤1:给定任意若干类样本集合以及提取的大小为n的特征集,其中每一类样本集合中包含多个网站样本,每一个样本都由n维提取出的特征值表示;步骤2:基于数据复杂性,从特征值空间的组成和分布来观测特征的可区分性,确定每个特征的特征效率的计算方法;
MINMAXf=min(max(f,Cj),max(f,Ck))MAXMINf=max(min(f,Cj),min(f,Ck));其中,f表示特征;C_j表示类j的全部样本集合;|C_jf∪C_kf|表示样本中类j和类f在特征f上的并集的数目,即在该特征值上对两个类别求并集,然后统计并集的大小;|MAXMINf→MINMAXf|表示,就特征f而言,类k和j的所有样本中处于MAXMINf与MINMAXf之间的样本数目;步骤3:在已知上述计算方法之后,在给定的样本类别中任选两类样本为每个特征计算它们的F(f)值,并选择值最的大一维特征f_max;步骤4:删除选择的两类样本中f_max值域重叠部分之外的样本,移除特征f并统计这些样本的个数num;步骤5:对剩余的特征集和样本集重复步骤3和步骤4,直至样本集或者特征集为空;步骤6:最后,每个特征所移除的样本数num占总体样本数的比例就是该特征的重要性f_value;根据f_value的大小筛选出给定的m个最重要的特征;m为筛选后的特征集大小。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810896859.3/,转载请声明来源钻瓜专利网。