[发明专利]一种用于处理大量数据的数据处理系统及其处理方法有效
申请号: | 201710197935.7 | 申请日: | 2017-03-29 |
公开(公告)号: | CN108664788B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 张守义 | 申请(专利权)人: | 北京宸信征信有限公司 |
主分类号: | G06F21/53 | 分类号: | G06F21/53;G06F21/55;H04L29/06 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 刘冬梅;路永斌 |
地址: | 100036 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 处理 大量 数据 数据处理系统 及其 方法 | ||
1.一种利用数据处理系统进行大量数据处理的方法,其特征在于,所述数据处理系统包括:
分析前处理子系统(1),用于对在数据分析前对数据进行处理,并将处理后的数据输出给分析处理服务器(2);
分析处理服务器(2),用于进行数据分析,并分别向存储服务器(3)和盘柜(4)输出分析数据;
存储服务器(3),用于储存分析数据,以及数据查询;和
盘柜(4),用于对分析处理服务器(2)输出的分析数据进行备份;
其中,所述分析前处理子系统(1)包括物理防火墙和至少两台虚拟机,其中,所述虚拟机中至少有两台虚拟机处于不同的局域网中;
所述分析前处理子系统(1)包括第一虚拟机(11)、第二虚拟机(12)和物理防火墙(13),其中,
所述第一虚拟机(11)和所述第二虚拟机(12)处于不同的局域网中;
所述大量数据通过物理防火墙(13)从第一虚拟机(11)传输给第二虚拟机(12),再由第二虚拟机(12)通过物理防火墙(13)输出数据分析系统;
所述第一虚拟机(11)用于对大量数据进行预处理,所述物理防火墙(13)用于预处理后的数据进行查杀,所述第二虚拟机用于对查杀后的数据进行数据核实及再处理;
所述第一虚拟机(11)包括数据输出与统计模块(113),用于对第一虚拟机(11)预处理后的数据进行输出给物理防火墙(13),并对输出数据中的文件个数进行统计;
所述第二虚拟机(12)包括:
数据接收与统计模块(121),用于接收物理防火墙(13)传输的查杀后的数据,并对所述数据中的文件个数进行统计;
数据复核模块(122),用于将所述数据接收与统计模块(121)得到的文件统计结果与所述数据输出与统计模块(113)得到的文件统计结果进行比对,以确定在物理防火墙(13)的查杀过程中是否有文件丢失,如果丢失的文件不是威胁数据或病毒,则为物理防火墙(13)重新配置策略;
数据输出模块(123),用于将经第二虚拟机(12)再处理后的数据输出给物理防火墙(13);
所述第二虚拟机(12)还包括数据再处理模块(124),用于对查杀后的数据进行再处理;
所述第一虚拟机(11)还包括:
数据接收模块(111),用于接收需要处理的大量数据;
数据预处理模块(112),用于对第一虚拟机(11)接收的大量数据进行预处理;
所述数据预处理模块(112)包括:
空文件处理子模块(1121),用于搜索大量数据中的空文件,并对搜索到的空文件移动至文件回收站;
属性筛选子模块(1122),用于通过文件属性筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;和
稀疏文件处理子模块(1123),用于对稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,其中,所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件;
所述数据预处理模块(112)还包括:
可执行文件处理子模块(1124),用于搜索大量数据中的可执行文件,并进行过滤处理;
非二进制文件处理子模块(1125),用于搜索大量数据中的非二进制文件,并进行过滤处理;
有损文件处理子模块(1126),用于搜索大量数据中的有损文件,并进行过滤处理;和
暂不分析文件处理子模块(1127),用于对暂时不进行后期分析的文件进行过滤处理,移动至文件回收站;所述数据再处理模块(124)包括:
空文件再处理子模块(1241),用于搜索经查杀后的数据中的空文件,并对搜索到的空文件移动至文件回收站;
属性再筛选子模块(1242),用于通过文件属性在经查杀后的数据中筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;
稀疏文件再处理子模块(1243),用于对经查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站;
可执行文件再处理子模块(1244),用于搜索经查杀后的数据中的可执行文件,并进行过滤处理;
非二进制文件再处理子模块(1245),用于搜索经查杀后的数据中的非二进制文件,并进行过滤处理;
有损文件再处理子模块(1246),用于搜索经查杀后的数据中的有损文件,并进行过滤处理;和
暂不分析文件再处理子模块(1247),用于对暂时不进行后期分析的文件进行过滤处理,为移动至文件回收站;
所述分析前处理子系统(1)还包括存储设备销毁机(14);
所述方法包括以下步骤:
步骤1、利用分析前处理子系统(1)中对大量数据进行过滤和查杀,并将处理后的数据输出给分析处理服务器(2);
步骤2、分析处理服务器(2)接收到经分析前处理子系统(1)处理后的数据,进行数据分析,获得分析数据,并将分析数据分别输出给存储服务器(3)和盘柜(4);
步骤3、在存储服务器(3)内进行分析数据的查询;
步骤1包括以下子步骤:
步骤1-1、获得大量数据,并在第一虚拟机(11)内对其进行预处理,并将预处理后的数据输出给物理防火墙(13);
步骤1-2、物理防火墙(13)接收到第一虚拟机(11)输出的数据,并对其进行查杀,然后将查杀后的数据传输给第二虚拟机(12);
步骤1-3、第二虚拟机(12)接收物理防火墙(13)传输的数据,并对所述数据进行文件核实和再处理,然后将再处理后的数据再次传输给物理防火墙(13);
步骤1-4、物理防火墙(13)接收到第二虚拟机(12)输出的数据,并将所述数据输出给数据分析系统,进行数据分析;和
步骤1-4’、利用存储设备销毁机14将存储设备中的大量数据进行销毁;
步骤1-1包括以下子步骤:
步骤1-1-1、利用数据接收模块(111)获得需要处理的大量数据;
步骤1-1-2、利用数据预处理模块(112)对所述大量数据进行预处理,获得预处理后的数据;
步骤1-1-3、将预处理后的数据输出给物理防火墙(13),并对输出数据中的文件个数进行统计;
步骤1-1-2包括以下子步骤:
步骤1-1-2-1、利用空文件处理子模块(1121)对大量数据中的空文件进行搜索,并将搜索到的空文件移动至文件回收站,以便后续处理;
步骤1-1-2-2、利用属性筛选子模块(1122)对大量数据通过文件属性进行筛选,获得需要分析的文件,并过滤掉不需要的文件,同时将过滤掉的文件移动至文件回收站,以便后续处理;
步骤1-1-2-3、利用稀疏文件处理子模块(1123)对大量数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,以便后续处理;
步骤1-1-2-4、利用可执行文件处理子模块(1124)对大量数据中的可执行文件进行搜索,并将搜索到的可执行文件移动至文件回收站,以便后续处理;
步骤1-1-2-5、利用非二进制文件处理子模块(1125)对大量数据中的非二进制文件进行搜索,并将搜索到的非二进制文件移动至文件回收站,以便后续处理;
步骤1-1-2-6、利用有损文件处理子模块(1126)对大量数据中的有损文件进行搜索,并将搜索到的有损文件移动至文件回收站,以便后续处理;
步骤1-1-2-7、利用暂不分析文件处理子模块(1127)对大量数据中的暂不分析文件进行搜索,并将搜索到的暂不分析文件移动至文件回收站,以便后续处理;
所述步骤1-1-2-2包括以下子步骤:
步骤1-1-2-2-1、利用文件日期筛选子模块(11221)对大量数据通过创建日期进行筛选,筛选出需要的文件,并将不需要的文件移动至文件回收站,以便后续处理;
步骤1-1-2-2-2、利用文件大小筛选子模块(11222)对大量数据通过文件大小进行筛选,筛选出需要的文件,并将不需要的文件移动至文件回收站,以便后续处理;
步骤1-1-2-2-3、利用文件格式核对子模块(1223)对大量数据通过文件格式进行筛选,筛选出需要的文件,并将不需要的文件移动至文件回收站,以便后续处理;
步骤1-3包括以下子步骤:
步骤1-3-1、利用数据接收与统计模块(121)接收物理防火墙(13)经过查杀后的数据,并对所述数据中的文件进行文件个数统计;
步骤1-3-2、利用数据复核模块(122)对数据接收与统计模块(121)获得的文件统计结果以及数据输出与统计模块(113)获得的文件统计结果进行复核,分析统计的文件个数是否与步骤1-1-3中输出时统计的文件个数一致,当统计的文件个数不一致,则在物理防火墙(13)上核实被查杀的文件是否为威胁或病毒,若被物理防火墙(13)查杀的文件不是威胁或病毒,则为物理防火墙(13)重新配置策略,直至被误查杀的文件重新从物理防火墙(13)传输到第二虚拟机(12),直至统计结果一致;
步骤1-3-3、利用数据再处理模块(124)对第二虚拟机(12)接收到的数据再次进行处理;
步骤1-3-4、利用数据输出模块(123)将经第二虚拟机(12)再处理后的数据经过物理防火墙(13)传输给数据分析系统,进行数据分析;
步骤1-3-3包括以下子步骤:
步骤1-3-3-1、利用空文件再处理子模块(1241)对接收的数据中的空文件进行搜索,并将搜索到的空文件移动至文件回收站,以便后续处理;
步骤1-3-3-2、利用属性再筛选子模块(1242)对物理防火墙查杀后的数据通过文件属性进行筛选;
步骤1-3-3-3、利用稀疏文件再处理子模块(1243)对物理防火墙查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,以便后续处理;
步骤1-3-3-4、利用可执行文件再处理子模块(1244)对物理防火墙查杀后的数据中的可执行文件进行搜索,并将搜索到的可执行文件移动至文件回收站,以便后续处理;
步骤1-3-3-5、利用非二进制文件再处理子模块(245)对物理防火墙查杀后的数据中的非二进制文件进行搜索,并将搜索到的非二进制文件移动至文件回收站,以便后续处理;
步骤1-3-3-6、利用有损文件再处理子模块(1246)对物理防火墙查杀后的数据中的有损文件进行搜索,并将搜索到的有损文件移动至文件回收站,以便后续处理;
步骤1-3-3-7、利用暂不分析文件再处理子模块(1247)对物理防火墙查杀后数据中的暂不分析文件进行搜索,并将搜索到的暂不分析文件移动至文件回收站,以便后续处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宸信征信有限公司,未经北京宸信征信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710197935.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置