[发明专利]一种基于电力系统的多源异构数据采集汇聚系统及方法有效
申请号: | 202011314586.0 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112433998B | 公开(公告)日: | 2022-01-21 |
发明(设计)人: | 宋才华;关兆雄;布力;吴丽贤;王永才;杜家兵 | 申请(专利权)人: | 广东电网有限责任公司佛山供电局 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/215;G06F16/25 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 528011 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 电力系统 多源异构 数据 采集 汇聚 系统 方法 | ||
1.一种基于电力系统的多源异构数据采集汇聚系统,其特征在于,包括数据源配置模块、数据采集模块、工作流任务调度模块、任务监控模块、数据管理模块;所述数据源配置模块与所述数据采集模块连接,所述数据采集模块与所述工作流任务调度模块和所述数据管理模块相连接,所述数据采集模块和所述工作流任务调度模块与所述任务监控模块相连接;所述数据源配置模块进行数据源类别的确定并根据确定的数据源类别进行数据源的采集,将采集后的数据源传输到所述数据采集模块;所述工作流任务调度模块对采集配置功能进行确定,将确定后的采集配置功能传输到所述数据采集模块;所述数据采集模块利用所述采集后的数据源和所述确定后的采集配置功能进行数据采集,将采集后的数据传输到所述数据管理模块;所述数据管理模块实现所述采集后数据的查询和预览;
所述的数据源配置模块根据不同的采集方式配置指定的数据源配置项实现所需数据源的配置,其中,所述指定的数据源包括实时数据源、结构化数据源、非结构化数据源、互联网数据源和日志数据源,所述不同的采集方式包括实时数据源采集方式、结构化数据源采集方式、非结构化数据源采集方式、互联网数据源采集方式和日志数据源采集方式;所述数据采集模块实现数据源配置模块信息的读取,并根据数据源配置信息实现特定方式的数据采集,其中,所述特定方式的数据采集在工作流任务节点配置指定,所述工作流任务节点是工作流中的一个节点,所述工作流由多个节点组成的,一个工作流的一次流转作为一次任务,所述任务支持shell、python、SQL开发语言自定义参数处理,所述自定义参数包括时间参数;所述工作流任务调度模块通过任务节点的方式实现将数据采集模块配置的采集功能挂载带工作流中;所述任务监控模块实现工作流节点、执行日志、数据采集量情况的监控;所述数据管理模块实现采集到数据的查询和预览。
2.根据权利要求1所述的基于电力系统的多源异构数据采集汇聚系统,其特征在于,所述的数据采集模块包括实时数据采集配置功能、结构化数据采集配置功能、非结构化数据采集配置功能、互联网数据爬取配置功能和日志数据采集配置功能;所述实时数据采集配置功能通过kafka管道topic及其采集策略,实现对kafka流式数据的采集;所述结构化数据采集配置功能能采集指定数据库表,制定全量采集或增量采集策略;所述非结构化数据采集配置功能可直接采集csv格式、txt文本半结构化数据,存储语音、图片格式的数据,并配置解析策略;所述互联网数据爬取配置功能可采集网址及界面采集标签项,将页面列表或详细信息采集入库,且支持插件上传和自定义解析页面;所述日志数据采集配置功能能配置相应的数据采集管道,定制采集策略,对数据日志进行采集入库。
3.一种利用权利要求1所述的基于电力系统的多源异构数据采集汇聚系统的方法,其特征在于,包括以下步骤:
S1.通过数据源配置模块确定采集方式和配置所需数据源,对数据源的接入方式及存储方式统一规划,将配置好的数据源传输至数据采集模块;
S2.通过工作流任务调度模块定义工作流任务,将定义好的工作流任务传输至数据采集模块,其中,工作流任务包括创建工作流、填写工作流名称、工作流编码、工作流任务描述;
S3.通过工作流任务调度模块定义任务节点,将定义好的任务节点传输至数据采集模块,其中,任务节点包括开始、采集数据、清洗数据、整合数据、输出数据、结束;
S4.利用步骤S2的工作流任务和步骤S3中的任务节点,在数据采集模块上对进行各类型数据接入方式的节点配置和数据采集,将采集完成的数据传输到数据管理模块,其中,各类型数据的接入方式包括实时数据的接入方式、结构化数据的接入方式、非结构化数据的接入方式、互联网数据的接入方式、日志数据的接入方式;
S5.任务调度监控模块对步骤S2中的工作流任务调度模块和步骤S3中的数据采集模块进行全程监测;
S6.利用数据管理模块对于步骤S5中所述的采集完成的数据进行查询和预览。
4.根据权利要求3所述的基于电力系统的多元异构数采集汇聚方法,其特征在于,所述步骤S4中的实时数据的接入方式为实时数据通过分布式消息队列的形式由Kafka分发。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司佛山供电局,未经广东电网有限责任公司佛山供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011314586.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置