[发明专利]一种基于Flink的数据流多向处理系统在审
申请号: | 201811373337.1 | 申请日: | 2018-11-19 |
公开(公告)号: | CN109710731A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李志强;石波;胡佳;谢小明;丁卫星;徐晶 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F9/54 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多向 数据流处理系统 数据流 处理系统 持久化 数据处理能力 数据实时处理 处理业务 传统算法 分析效率 高可靠性 高扩展性 高效组合 快速存储 数据丢失 整体能力 单节点 多业务 可升级 快速性 数据源 磁盘 存储 概率 分析 表现 保证 | ||
1.一种基于Flink的数据流多向处理系统,其特征在于,包括数据缓存模块、数据多向处理模块和数据存储模块;
所述数据缓存模块用于缓存从不同的源收集的数据,并转发给数据多向处理模块;所述数据多向处理模块用于接收来自数据缓存模块的数据,根据多业务需求把日志流进行多纬度处理分析,再把对应的日志流发送给其对应的数据存储模块。
2.如权利要求1所述的系统,其特征在于,所述数据缓存模块采用Apache Kafka实现。
3.如权利要求1所述的系统,其特征在于,所述数据多向处理模块中使用flink-kafka连接器对Kafka的流数据进行消费处理,在flink中进行数据多层次,多流向的处理。
4.如权利要求3所述的系统,其特征在于,所述数据多向处理模块具体采用如下过程对Kafka的流数据进行消费处理:
初始化消费者:由连接器创建kafka的消费者,此处只创建一个消费者,以接收缓存在kafka的数据;
筛选并转换:创建过滤器,对数据源进行过滤,去除非法数据;创建转换器,对多种业务需求进行数据统一化格式转换处理;
多向处理:对同一个数据按照多种不同的处理方式进行处理,并行经过多种不同的业务逻辑,实现单消费者对数据的多方位分析:
第一种业务处理流程,实现峰值和热词的统计收集:
创建统计函数,使用key计数,创建业务需求的自定义计数逻辑,实现对数据峰值、热词计数,排序;
创建存储函数,实现对相应结果记录存储;
第二种业务处理流程,实现数据重点信息收集和存储:
创建必要的数据转换器,实现对数据特征的提取处理、加工,实现数据的泛化,保留各方面数据中相同或一定程度上相似的特征;
创建过滤业务,去除数据中一定程度上发散或重复的数据;
存储第二种业务处理流程产生的泛化数据。
5.如权利要求1所述的系统,其特征在于,所述数据存储模块采取对EsSink存储时的异常处理流程:
检查Kafka业务流程,是否选择保留数据;
保存文件时处理错误数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811373337.1/1.html,转载请声明来源钻瓜专利网。