[发明专利]一种基于主题模型的动态自更新网络流量分类方法有效

专利信息
申请号: 201910425904.1 申请日: 2019-05-21
公开(公告)号: CN110225001B 公开(公告)日: 2021-06-04
发明(设计)人: 李睿;肖喜;夏树涛;郑海涛;江勇 申请(专利权)人: 清华大学深圳研究生院
主分类号: H04L29/06 分类号: H04L29/06;G06K9/62
代理公司: 深圳新创友知识产权代理有限公司 44223 代理人: 江耀纯
地址: 518055 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 模型 动态 更新 网络流量 分类 方法
【权利要求书】:

1.一种基于主题模型的动态自更新网络流量分类方法,其特征在于,包括:

1)分类模型初始化:初始时刻,利用事先标记好协议类别的数据包集作为初始化数据集,对分类模型进行初始化,以获得时刻1的分类模型;

2)数据包分类:在t时刻,利用时刻t的分类模型对此时收到的待分类数据包进行分类,并输出此时的待分类数据包的协议类别以及协议分布信息;

3)分类模型训练更新:利用t时刻输出的已知协议类别的数据包构成训练集,利用t、t-1、…、t-(L-1)共L个历史时刻输出的历史协议分布信息作为主题先验分布,训练时刻t+1的分类模型;t=1,2,3,...,L=1,2,...,δ,δ值根据分类精确度要求及模型训练时长要求预先设置;

其中,某一时刻分类模型输出的所述协议分布信息包括该时刻与前一时刻期间不同协议类别的数据包分布比例。

2.如权利要求1所述的动态自更新网络流量分类方法,其特征在于,所述分类模型包括:数据包标准化模块、聚类模块、标记模块和判决模块,所述聚类模块是利用历史协议分布信息作为主题先验分布的动态聚类主题模型进行构建;

初始化过程包括:通过数据包标准化模块将初始化数据集中的每个数据包转化为对应的类文本数据序列;通过所述聚类模块对所有类文本数据序列进行聚类;对于每一个聚类,通过所述标记模块将该聚类下数据包数量最多的协议类别分配给该聚类,作为该聚类的标签进行标记;利用带标签的聚类生成所述判决模块的判决规则;

分类模型的训练更新过程包括:通过数据包标准化模块将训练集中的每个数据包转化为对应的类文本数据序列;通过所述聚类模块,根据前L个历史时刻输出的历史协议分布信息,对训练集中所有数据包的类文本数据序列进行聚类;对于每一个聚类,通过所述标记模块将该聚类下数据包数量最多的协议类别作为该聚类的标签进行标记;利用带标签的聚类生成判决模块的判决规则;

数据包分类过程包括:通过数据包标准化模块将待分类数据包转化为类文本数据序列;对于每一个类文本数据序列,通过判决模块计算该类文本数据序列属于每个聚类的概率,概率最大的聚类所带的标签即为该类文本数据序列对应的数据包所属的协议类别。

3.如权利要求2所述的动态自更新网络流量分类方法,其特征在于,还包括:对聚类进行标记时,计算每个聚类的置信度,并舍弃置信度低于第一预设值的聚类。

4.如权利要求3所述的动态自更新网络流量分类方法,其特征在于,聚类的置信度计算公式为:

其中,C表示当前聚类的置信度,Pmax表示当前聚类中被分配的协议类别下数据包的数量,Ptotal表示当前聚类中数据包总数。

5.如权利要求2所述的动态自更新网络流量分类方法,其特征在于,将数据包转化为类文本数据序列的步骤包括:

去除数据包的链路层、网络层及传输层的包头信息;

对二进制的数据包应用层内容进行N-gram转化,得到数据包对应的类文本数据序列。

6.如权利要求5所述的动态自更新网络流量分类方法,其特征在于,所述聚类模块对t时刻数据包的类文本数据序列进行聚类的步骤包括:

(1)给t时刻的每个数据包随机分配一个主题,并默认每个数据包的所有N-gram字段均属于为该数据包分配的主题,从而得到初始化的主题多项式分布;

(2)采用基于主题先验分布的吉布斯采样,从初始化的主题多项式分布开始进行采样迭代,迭代预定次数或者聚类质量满足预设的卡方检验条件时,所得到的主题多项式分布即为目标后验分布;

(3)根据所述目标后验分布,得到t时刻的数据包聚类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院,未经清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910425904.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top