[发明专利]基于流式处理的TCP会话重组与统计数据提取方法有效
申请号: | 201810079562.8 | 申请日: | 2018-01-26 |
公开(公告)号: | CN108289125B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 高英;李若鹏;靳亚洽;刘煜 | 申请(专利权)人: | 华南理工大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06 |
代理公司: | 重庆中之信知识产权代理事务所(普通合伙) 50213 | 代理人: | 涂强 |
地址: | 510630*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 处理 tcp 会话 重组 统计数据 提取 方法 | ||
1.一种基于流式处理的TCP会话重组与统计数据的提取方法,其特征在于,包括以下步骤:
(1)在数据收集层与数据存储层之间构建数据管道层及实时计算层,数据收集层收集网络数据包数据发送给数据管道层进行缓存,实时计算层用于从数据管道层中远取数据进行处理,处理结果存入数据存储层;
(2)、在数据管道层中搭建三台Kafka分布式消息队列作为数据管道服务;
(3)、在实时计算层中搭建三台Flink流式处理引擎作为流式计算集群;
(4)、实时计算层从数据管道中提取数据,进行反序列化成数据对象;该对象将作为流式计算过程中的数据元素,经过数据运算输出TCP会话数据与统计数据;
数据管道层中通过定义数据组装schema模式,将30特征序列化成二进制格式bytes,进行发送;对于所收集到的网络原始数据包,抽取数据头部29个特征以schema模式进行序列化,该模式以json格式的方式定义,并在本地存储为avsc格式,通go-avro作为序列化工具,通过将go语言原生的map[string]interface{}结构转化成avro所定义的record数据对象,序列化成二进制格式;
实时计算层使用Avro-tool工具按照定义好的schema文件avsc生成反序列化类TCP,该类主要用对数据管道中的序列化二进制数据进行反序列化操作,使用Flink-Kafka-Connector工具,从Kafka集群中读取出序列化二进制数据,并对数据进行反序列化操作,得到TCP数据对象。
2.如权利要求1所述的基于流式处理的TCP会话重组与统计数据的提取方法,其特征在于,序列化后的数据将发送到由Kafka分布式消息队列构成的消息管道中进行缓存。
3.如权利要求2所述的基于流式处理的TCP会话重组与统计数据的提取方法,其特征在于,
将TCP数据对象中的源IP、目的IP、源端口、目的端口定义成会话数据四元组,源IP+源端口与目的IP+目的端口位置调换的数据对象被认为属于同一次会话,将源IP与源端口以冒号连接组成字符串strl,将目的IP与目的端口以冒号连接组成字符串str2,并对strl与str2按照ASCII编码进行排序,将较小的字符串放置在前,由此可得对于每一个会话唯一key值,该key值将作为一次会话的区分标准,同时也作为流分区的依据;
Flink同时运行多个并行流,每一个并行流都是一个分区,每一个并行流将用来存放一组会话,通过提取数据对象的四元组信息,获取唯一key值,该值用于流分区,分区后数据流将划分为一组一组的会话流;
对数据流依据活动会话进行窗口分配,会话窗口之间互不重叠也不具有一个明确的开始和结束,会话窗口会在设定的时间内没有收到任何数据的条件下关闭,当经过一段时间并没有数据到达,引发会话窗口结束后,新的数据的到达将会引发建立新的会话窗口;
会话窗口采用Flink的会话窗口机制,根据TCP会话建立最长等待时间,建立相应最长等待时间长度的会话窗口,当任意一条并行流上的第一个数据到达,建立一个新的会话窗口,在会话窗口上随着数据的不断到达进行增量计算,并且在时间阈值到达前未收到任何数据的情况下结束该会话窗口,并输出计算结果,对于每一条并行流,都会随着时间推移不断会有新的会话窗口的新建与关闭,会话的结束依据数据间隔时间来判定,使用TCP会话建立最长等待时间127秒来进行判定;
通过会话窗口触发器用于判断一个会话的开始、一个会话的结束以及调用;
采用窗口计算方法从会话的开始到会话的结束进行累计计算,计算出会话数据结果,根据其计算结果作为窗口计算的输出聚合到一条数据流中,由该数据流进行进一步的统计计算并得出最终的结果,算出的会话数据;采用Flink的滑动窗口机制获取会话数据的统计,所得的会话统计数据和前计算的出的会话数据组合,所得的会话数据组合用于网络异常行为分析平台后续的分析数据集。
4.如权利要求3所述的基于流式处理的TCP会话重组与统计数据的提取方法,其特征在于,会话数据包括会话起始时间、会话应用协议类型、会话起始节点信息、会话数据总量数据统计、会话时间统计数据、会话数据时间统计信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810079562.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据管理方法
- 下一篇:用于上传或下载文件的方法、装置及计算机存储介质