[发明专利]一种VoIP网络流量所属平台的识别方法有效
申请号: | 202010394712.1 | 申请日: | 2020-05-11 |
公开(公告)号: | CN111641599B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 张震;刘发强;孙旭东;倪善金;褚洪岩;张之含;刘瑶 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;杭州东信北邮信息技术有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04M7/00;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 voip 网络流量 所属 平台 识别 方法 | ||
1.一种VoIP网络流量所属平台的识别方法,其特征在于,包括有:
步骤一、根据流量特征,从流量数据中过滤出VoIP流量,并根据五元组信息对VoIP流量进行拆分,从而生成新的流量文件;
步骤二、识别每个流量文件中的上下行流量,提取和计算上行、下行、合并流量的特征指标,并由所有特征指标构成每个流量文件的特征向量;
步骤三、使用随机森林模型进行建模,构建VoIP平台识别模型,所述VoIP平台识别模型的输入是由多个流量文件的特征向量构成的特征向量矩阵,输出是多个流量文件分别对应的VoIP平台标签;
步骤四、将待识别的多个流量文件的特征向量构成的特征向量矩阵输入至VoIP平台识别模型,并获得每个待识别的流量文件分别对应的VoIP平台标签,
步骤三使用十折验证和网格搜索的方式进行模型参数的自动调优,调优参数包括但不限于:树数目、样本平衡方式、分叉标准、叶子最小样本数、分叉最小样本数,模型参数打分的方法为基于准确率、精准率、召回率、F1值、ROC曲线面积的打分体系,
对步骤三的VoIP平台识别模型进行训练,进一步包括有:
步骤31、读取由所有流量文件样本的特征向量构成的特征向量矩阵及每个流量文件样本对应的VoIP平台标签;
步骤32、打乱特征向量矩阵中样本行的排列顺序,随机抽取30%的样本作为测试集,其余作为训练集;
步骤33、将训练集随机划分为十份样本集,每份中的VoIP平台标签比例与全部训练集中的VoIP平台标签比例保持一致,并对十份样本集进行编号,设置j=1;
步骤34、选取除j号样本集外的全部其他样本集作为模型调参的输入数据;
步骤35、设置随机森林模型参数及其调优取值范围如下:
(1)树数目:500、1000,
(2)样本平衡方式:平衡、非平衡,
(3)分叉标准:Gini系数、熵,
(4)叶子最小样本数:1、2、3、4、5,
(5)分叉最小样本数:2、3、4、5、6、7、8、9、10;
步骤36、使用网格搜索方法,枚举步骤35中的全部参数并建模,预测j号样本集中所有样本对应的VoIP平台标签,保留全部枚举参数及其对应的预测结果;
步骤37、将j加1,并判断j是否大于10,如果否,则转向步骤34;如果是,则继续下一步;
步骤38、将所有样本的全部预测结果与实际VoIP平台标签比对,使用多个评估指标项对所有枚举参数及其对应模型进行评分,从而获得每个枚举参数及其对应模型在不同评估指标项下的得分,评估指标项包括:
(1)平衡准确率:基于VoIP平台标签在总体中的占比,使用其倒数作为各VoIP平台样本的权重,计算全部VoIP平台样本准确率的加权平均值;
(2)精准率均值:对每类VoIP平台标签,使用二分类方式计算精准率,最后取平均值;
(3)召回率均值:对每类VoIP平台标签,使用二分类方式计算召回率,最后取平均值;
(4)F1值均值:对每类VoIP平台标签,使用二分类方式计算F1值,最后取平均值;
(5)ROC曲线面积均值:对所有VoIP平台标签进行排列组合,对每对标签生成ROC曲线,计算曲线下面积,最后取所有标签对面积的平均值;
步骤39、分别在每个评估指标项下对所有枚举参数及其对应模型的得分按分值从高到低的次序进行排序,然后计算每个枚举参数及其对应模型的总评分:
其中,scorek是第k个枚举参数及其对应模型的总评分,N是总样本数,Rankk(1)、Rankk(2)、Rankk(3)、Rankk(4)、Rankk(5)分别是第k个枚举参数及其对应模型在平衡准确率、精准率均值、召回率均值、F1值均值、ROC曲线面积均值下的排序名次,最后挑选总评分最高的枚举参数及其对应模型作为训练好的VoIP平台识别模型。
2.根据权利要求1所述的方法,其特征在于,步骤一中的流量特征包括但不限于:协议、端口、流量包大小、地址,五元组信息包括有:源端口、源地址、目的端口、目的地址、协议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;杭州东信北邮信息技术有限公司,未经国家计算机网络与信息安全管理中心;杭州东信北邮信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010394712.1/1.html,转载请声明来源钻瓜专利网。