[发明专利]数据传输方法和流式数据传输系统在审
申请号: | 202211081555.4 | 申请日: | 2022-09-05 |
公开(公告)号: | CN115473858A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 王翔宇;魏泽丰;高瑞超 | 申请(专利权)人: | 上海哔哩哔哩科技有限公司 |
主分类号: | H04L47/62 | 分类号: | H04L47/62;H04L12/66;H04L67/10 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 饶文彬 |
地址: | 200433 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据传输 方法 系统 | ||
1.一种数据传输方法,应用于流式数据传输系统中,所述流式传输系统包括由多个数据采集插件组成的数据上报边缘层、由网关组成的数据上报网关层、由Kafka集群组成的数据缓存层、由Flink集群组成的数据分发层及由多个终端组成的数据存储层,其特征在于,所述方法包括:
所述数据采集插件从数据源中采集数据流,并采用数据上报请求将采集到的数据上报至所述网关,其中,不同的数据流具有的数据流标识不同,每一个数据上报请求中包含的数据具有相同的数据流标识;
所述网关在接收到所述数据上报请求后,将所述数据上报请求中的数据存储至目标请求队列中,其中,具有不同的数据流标识的数据存储的请求队列不同;
所述网关通过轮询方式从生产者池中确定每一个请求队列对应的目标生产者,并通过所述目标生产者在预设的时间段内将所述目标生产者对应的请求队列中的存储的数据缓存至所述Kafka集群的目标主题中,其中,不同的请求队列对应的主题不同;
所述Flink集群通过多个Flink SQL作业消费Kafka集群的各个主题中缓存的数据,并将消费到的数据分发至目标终端中,其中,每一个Flink SQL作业消费一个主题中缓存的数据。
2.根据权利要求1所述的数据传输方法,其特征在于,所述流式数据传输系统还包括数据传输管理模块,所述方法还包括:
所述数据传输管理模块根据用户对所述数据源中的待采集数据流的配置信息生成所述待采集数据流的元数据信息,并将所述元数据信息保存至预设的数据库中,其中,所述元数据信息包括所述待采集数据流的数据流标识,所述待采集数据流对应缓存的主题信息、所述待采集数据流分发的终端信息。
3.根据权利要求1所述的数据传输方法,其特征在于,所述数据采集插件从数据源中采集数据流,并采用数据上报请求将采集到的数据上报至所述网关包括:
所述数据采集插件通过不同的数据采集进程从数据源中采集不同的数据流,并采用不同的数据上报请求将不同的数据流中的数据上报至所述网关。
4.根据权利要求1所述的数据传输方法,其特征在于,所述方法还包括:
所述网关在检测到数据流中的数据缓存至所述Kafka集群的主题中出现超时情况时,确定出现超时情况的主题中的分区,并在确定出现超时情况的主题中的分区后,停止向出现超时情况的主题中的分区缓存数据。
5.根据权利要求4所述的数据传输方法,其特征在于,所述方法还包括:
所述网关在确定出现超时情况的主题中的分区后,将出现超时情况的主题中的其他分区作为缓存数据流中的数据的分区。
6.根据权利要求1所述的数据传输方法,其特征在于,所述方法还包括:
所述Flink集群在检测到通过Flink SQL作业消费Kafka集群的主题中的数据出现延迟情况时,将出现延迟情况的主题向zookeeper注册为黑名单;
所述网关获取所述黑名单中包含的主题,并停止向所述黑名单中包含的主题缓存数据。
7.根据权利要求1所述的数据传输方法,其特征在于,所述Kafka集群包括第一Kafka集群与第二Kafka集群,所述方法还包括:
所述网关实时监测缓存至Kafka集群中的数据的缓存状况,并根据所述缓存状况从所述一Kafka集群与所述第二Kafka集群选择用于缓存数据的Kafka集群。
8.根据权利要求1所述的数据传输方法,其特征在于,所述方法还包括:
所述Flink集群在检测到通过Flink SQL作业消费Kafka集群的主题中的数据出现延迟情况时,将出现消费延迟情况的数据反压至对应的主题中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海哔哩哔哩科技有限公司,未经上海哔哩哔哩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211081555.4/1.html,转载请声明来源钻瓜专利网。