[发明专利]高可靠性的大数据日志采集与传输方法有效
申请号: | 201710056287.3 | 申请日: | 2017-01-25 |
公开(公告)号: | CN106709069B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 杨庆磊;黄建鹏;房鹏展;陈静;史飞悦 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210003 江苏省南京市高新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 高可靠性的大数据日志采集与传输方法,步骤如下,步骤1设计日志采集架构;设计可以实现并有利于日志采集的平台架构:设有基于能够采集日志和校验日志的系统架构;flume部署至多个数据源上,flume用于采集数据源的日志数据并发送;Kafka作为数据传输模块,部署在网络中心节点;storm和HDFS部署在最终数据汇总的大数据集群上;步骤2数据恢复的流程和算法;保障数据因程序中断或网络中断而重新恢复的流程和算法。步骤3设计文本校验的交互流程和算法。 1 | ||
搜索关键词: | 日志采集 大数据 算法 高可靠性 校验 日志 数据传输模块 网络中心节点 部署 传输 保障数据 采集数据 程序中断 交互流程 平台架构 日志数据 数据恢复 网络中断 系统架构 最终数据 数据源 集群 架构 文本 采集 发送 恢复 | ||
步骤1设计日志采集架构;设计能实现并有利于日志采集的平台架构:
设有基于能够采集日志和校验日志的系统架构;flume部署至多个数据源上,flume用于采集数据源的日志数据并发送;Kafka作为数据传输模块,部署在网络中心节点,即快速连通各个数据源的服务器;storm和HDFS部署在最终数据汇总的大数据集群上;设有数据库,用于存储日志文件校验的信息,数据库部署在一台独立的服务器上或部署在大数据集群上;
日志校验的交互流程和算法步骤:通过数据源发送校验码的方式使大数据集群根据校验码触发校验;
通过文本校验的交互流程和算法步骤:通过解析获取校验码中数据源日志文件的行数与大数据集群中已获得的实际行数对比,判断文件是否应该重传;
步骤2 数据恢复的流程和算法:保障数据因程序中断或网络中断而重新恢复的流程和算法;
步骤3 设计文本校验的交互流程和算法。
2.根据权利要求1所述的高可靠性的大数据日志采集与传输方法,其特征是步骤2中,1)flume读取目前日志文件;读取时会记录当前读取日志文件的偏移量;当因为断电或服务中断,下次启动时会接着上次读取的位置读取文件;
2)当数据源所在服务器会定时发送日志文件的校验信息至大数据集群上;
3)当大数据集群的storm接收到消息校验,会对存储在HDFS上的日志文件进行校验并将校验信息记录至数据库;若校验成功,则发送文件校验成功消息至数据源;若校验不成功,则发送文件重传请求至数据源;
4)当数据源的flume接收到文件校验成功消息时,记录文件发送成功;当接收到文件重传请求时,重新发送日志文件。
3.根据权利要求1所述的高可靠性的大数据日志采集与传输方法,其特征是大数据集群对文件校验流程:1)当接收到源节点flume发送的校验消息;
2)大数据集群中的storm根据校验消息读取HDFS上已上传的文件并计算文件上的实际行数;
3)将实际行数与校验信息中的校验行数对比,若不一致则发送重新上传请求;若成功,则发送文件成功消息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710056287.3/,转载请声明来源钻瓜专利网。