[发明专利]一种开放式的多源数据采集系统及方法有效
申请号: | 201410306336.0 | 申请日: | 2014-06-30 |
公开(公告)号: | CN104111983B | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 张浩亮;柳厅文;时金桥;亚静;郭莉;胡兰兰;季月英;闫旸 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/445;G06F3/06 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 开放式 数据 采集 系统 方法 | ||
技术领域
本发明涉及网络安全领域,尤其涉及一种开放式的多源数据采集系统及方法。
背景技术
随着计算机技术的飞速发展和信息化的推进,网络安全问题日趋突出,为了应对网络安全威胁,往往需要部署各种各样的安全产品,包括漏洞扫描系统、病毒防护系统、木马监测系统、入侵检测系统等。网络管理员对不同安全产品产生的日志报警进行数据采集和关联分析,可以得到网络中潜在的安全威胁。
不同的安全产品产生的日志报警在输出类型和数据格式上各不相同,网络安全管理系统需要从多分布、异构和自治的数据源中采集数据,还要保持数据的完整性和一致性。ETL技术是目前企业数据采集的主要解决方案,实现把不同来源、格式和特点的数据在逻辑上或物理上有机地集中。目前常用的ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Trinity、Data Stage、Repository Explorer、Bee load、Kettle、Data Spider等,这些工具通常针对一种或多种数据采集类型,实现对多源数据的采集。其中Kettle作为一种开源工具,应用很广,支持的数据源采集类型包括数据库、文本等,用户可以自定义采集数据的输出格式和输出位置。但是,它并不能覆盖目前所有的通用数据采集类型,如socket通信数据接收的方式;并且,采集数据的存储只能用户自己定义,当采集的数据量很大而且需要快速检索时,并不能提供一种利于海量数据检索的存储接口。
综上,已有的多源数据采集工具存在以下不足:(1)涵盖的数据采集方式不全面,只关注数据库和文本数据的主动采集,忽略了通信数据如socket数据的被动接收;(2)数据接口扩展维护不方便,当接入新数据接口时,需要部署采集代理或使用数据模式转换工具;(3)存储方式不能实现海量数据的高效存储及检索等操作。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种开放式的多源数据采集系统及方法,涵盖比较全面的数据采集类型,基于规则实现数据采集接口的扩展和维护,并支持对海量数据的统一存储。
本发明解决上述技术问题的技术方案如下:一种开放式的多源数据采集系统,包括任务管理模块、任务执行模块和数据存储模块;
所述任务管理模块,其用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过配置采集任务信息,添加不同类型的数据采集接口信息;
所述任务执行模块,其用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块;
所述数据存储模块,其用于存储数据输出模块输出的数据。
本发明的有益效果是:本发明覆盖了比较全面的数据源采集类型,支持目前通用的数据采集方式,支持数据采集接口的动态扩展和多个数据源的并行采集,当有新的数据源接入时,只需要配置数据采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对先数据源的数据采集。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述任务管理模块还用于通过配置和修改数据采集接口规则实现对采集任务的添加、更改、激活、锁定和删除;当有新的数据源接入时,只需要添加采集任务并配置采集任务信息,生成相应的数据采集接口规则。
采用上述进一步方案的有益效果:支持数据采集接口的动态扩展,当有新的数据源接入时,只需要添加采集任务并配置采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对于新数据源的数据采集。
进一步,所述任务执行模块采用多线程对多个数据源进行并行采集,每个线程包括初始化单元、任务执行单元和数据输出单元;
所述初始化单元,其用于加载数据采集接口规则,读取采集任务信息,实现对数据采集接口的初始化;
所述任务执行单元,其用于获取当前的采集任务列表,对激活状态的采集任务进行监听,当有新数据产生时进行数据采集,并将采集的数据传送给数据输出单元;
所述数据输出单元,其用于将采集的数据按照统一格式进行封装,并传输到数据存储模块进行存储。
采用上述进一步方案的有益效果:支持多个数据源的并行采集,大大提高数据采集效率,便于实现数据采集接口的动态扩展;对采集数据的采用统一格式进行封装,并在分布式系统中统一存储,利于数据的高效存储和检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410306336.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用户自然属性的确定方法和装置
- 下一篇:一种指定用户设备的发现方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置