[发明专利]高可靠性的大数据日志采集与传输方法有效

专利信息
申请号: 201710056287.3 申请日: 2017-01-25
公开(公告)号: CN106709069B 公开(公告)日: 2018-06-15
发明(设计)人: 杨庆磊;黄建鹏;房鹏展;陈静;史飞悦 申请(专利权)人: 焦点科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210003 江苏省南京市高新*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 日志采集 大数据 算法 高可靠性 校验 日志 数据传输模块 网络中心节点 部署 传输 保障数据 采集数据 程序中断 交互流程 平台架构 日志数据 数据恢复 网络中断 系统架构 最终数据 数据源 集群 架构 文本 采集 发送 恢复
【说明书】:

高可靠性的大数据日志采集与传输方法,步骤如下,步骤1设计日志采集架构;设计可以实现并有利于日志采集的平台架构:设有基于能够采集日志和校验日志的系统架构;flume部署至多个数据源上,flume用于采集数据源的日志数据并发送;Kafka作为数据传输模块,部署在网络中心节点;storm和HDFS部署在最终数据汇总的大数据集群上;步骤2数据恢复的流程和算法;保障数据因程序中断或网络中断而重新恢复的流程和算法。步骤3设计文本校验的交互流程和算法。

技术领域

发明涉及数据采集领域,具体而言涉及一种高可靠性的大数据日志采集与传输技术。

背景技术

数据应用中,数据采集是一个非常重要的环节。而在互联网时代,大量的信息都存储在日志文件中,对用户数据挖掘、系统维护、系统改造都有重大意义。

但很多公司的系统分布在不同的物理地点,且每个节点都单独记录日志。因此若需要针对各地数据进行全面综合大数据分析,需要将各地零碎的日志采集至一套大数据平台中。现有技术已经使用flume+kafka+storm构建实时日志分析系统。Flume用于采集数据源、并以管道流方式,提供很多的默认实现,让用户通过参数部署,及扩展API。Kafka是一个可持久化的分布式的消息队列。Kafka是一个非常通用的系统。可以有许多生产者和很多的消费。Storm还是一个分布式的、容错的实时计算系统,由BackType开发,广泛用于进行实时日志处理,实时统计、实时风控、实时推荐等场景中。HDFS是分布式文件系统,HDFS采用单一主控机+多台工作机的模式,由一台主控机(Master)存储系统全部元数据,并实现数据的分布、复制、备份决策。

本发明通过开源工具kafka、storm、flume以及HDFS搭建了一套大数据日志采集平台,并通过设计数据传输校验流程,保证在日志传输过程中,不会因为网络中断或临时堵塞,或传输程序因为异常中断而导致日志数据传输丢失。

该发明可以广泛应用到通信、银行、财务、国防、资讯等众多领域。

发明内容

本发明目的在于,提出一种高可靠性的大数据日志采集与传输方法,能够保证日志数据可以可靠采集。保证在日志传输过程中,不会因为网络中断或临时堵塞,或传输程序因为异常中断而导致日志数据传输丢失。

为达成上述目的,本发明所采用的技术方案:1、高可靠性的大数据日志采集与传输方法,其特征是步骤如下,

步骤1设计日志采集架构。设计可以实现并有利于日志采集的平台架构:

设有基于能够采集日志和校验日志的系统架构;flume部署至多个数据源上,flume用于采集数据源的日志数据并发送;Kafka作为数据传输模块,(一般)部署在网络中心节点(即可以快速连通各个数据源的服务器);storm和HDFS部署在最终数据汇总的大数据集群上;设有数据库,用于存储日志文件校验的信息,数据库可以部署在一台独立的服务器上或部署在大数据集群上;

日志校验的交互流程和算法步骤:通过数据源发送校验码的方式使大数据集群根据校验码触发校验;

通过文本校验的交互流程和算法步骤:通过解析获取校验码中数据源日志文件的行数与大数据集群中已获得的实际行数对比,判断文件是否应该重传;

步骤2数据恢复的流程和算法;保障数据因程序中断或网络中断而重新恢复的流程和算法。

进一步的,步骤2中,

1)flume读取目前日志文件;读取时会记录当前读取日志文件的偏移量;当因为断电或服务中断,下次启动时会接着上次读取的位置读取文件;

2)当数据源所在服务器会定时发送日志文件的校验信息至大数据集群上;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710056287.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top