[发明专利]分布式流量去重统计方法、装置、设备及存储介质在审
申请号: | 202310559870.1 | 申请日: | 2023-05-17 |
公开(公告)号: | CN116599865A | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 邹凯;陈凯枫;张渊;戚友;李子阳;韩日富 | 申请(专利权)人: | 广州天懋信息系统股份有限公司 |
主分类号: | H04L43/026 | 分类号: | H04L43/026;H04L43/04;H04L43/067;H04L43/0876;H04L43/12 |
代理公司: | 北京友谊嘉知识产权代理事务所(普通合伙) 16075 | 代理人: | 孙剑锋 |
地址: | 510610 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 流量 统计 方法 装置 设备 存储 介质 | ||
本公开实施例公开了一种分布式流量去重统计方法、装置、设备及存储介质。其中,该方法包括:获取若干个目标子节点基于分布式方式采集的目标流量数据;将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。该方法能够提高分布式采集环境的流量去重统计的效率,降低计算资源的消耗,以及提高流量统计的准确性和流量查询性能。
技术领域
本公开涉及网络通信技术领域,尤其涉及一种分布式流量去重统计方法、装置、设备及存储介质。
背景技术
随着云计算技术发展和应用,网络流量统计可以广泛应用于网络管理规划、网络用户行为分析、基于网络流量的入侵检测等丰富的场景。网络流量采集系统通常采用分布式部署方式,从各个采集节点分别采集部分流量,再将所有流量融合分析。当一个网络数据包或网络会话途径两个及以上的采集节点时,这些流量会被重复采集,影响了流量统计的准确性。
目前相关技术的分布式采集环境的流量去重统计方法通常采用基于数据指纹摘要的流量去重方法,相关技术的流量去重统计方法需要消耗大量计算资源,占用较大网络带宽,去重统计的效率较低且要求较高的实时性,流量统计准确性较低,流量查询性能不足。
发明内容
有鉴于此,本公开实施例提供了一种分布式流量去重统计方法、装置、设备及存储介质,能够提高分布式采集环境的流量去重统计的效率,降低计算资源的消耗,以及提高流量统计的准确性和流量查询性能。
第一方面,本公开实施例提供了一种分布式流量去重统计方法,采用如下技术方案:
获取若干个目标子节点基于分布式方式采集的目标流量数据;
将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;
基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;
采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。
在一些实施例中,将元数据写入所述目标流量数据,包括:
获取所述目标子节点采集到所述目标流量数据的若干个采集时间;
根据预设的固定时间间隔和起始时间点,将连续的所述若干个采集时间划分成若干个连续且无重叠的时间片段得到采集时间段;
获取所述目标子节点部署位置的设备IP地址得到所述目标子节点的IP地址;
根据预设IP地址和预设归属区域的映射关系表,获取所述目标子节点的IP地址所属的归属区域;
将采集时间、采集时间段、所述目标子节点的IP地址、所述目标子节点的IP地址所属的归属区域中的至少之一写入所述目标流量数据。
在一些实施例中,基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果,包括:
获取所述目标流量数据的总字节数和总会话数;
基于所述目标流量数据的源IP地址和目的IP地址对所述总字节数和总会话数进行细粒度统计;或者,
基于所述目标流量数据的源IP地址和目的IP地址所属的归属区域对所述总字节数和总会话数进行中粒度统计;或者,
基于所述目标流量数据的源IP地址对所述总字节数和总会话数进行粗粒度统计得到相应的流量统计结果。
在一些实施例中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州天懋信息系统股份有限公司,未经广州天懋信息系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310559870.1/2.html,转载请声明来源钻瓜专利网。