[发明专利]一种分布式hadoop集群故障自动诊断修复系统有效
申请号: | 201510650975.3 | 申请日: | 2015-10-10 |
公开(公告)号: | CN105337765B | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 程永新;胡永;李京龙 | 申请(专利权)人: | 上海新炬网络信息技术股份有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 袁亚军;金碎平 |
地址: | 201707 上海市青浦区外青*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 hadoop 集群 故障 自动 诊断 修复 系统 | ||
1.一种分布式hadoop集群故障自动诊断修复系统,其特征在于,包括:
集群文件系统监控模块:采集获取集群节点信息以及数据库文件;
作业任务监控模块:采集作业和任务的信息,并对作业任务进行控制管理,包括作业的开启和停止,对指定作业进行周期采样,以及对任务优先级进行管理;
物理节点监控模块:监控每个物理节点的资源消耗信息;
数据存储分析处理模块:对来自所述集群文件系统监控模块、作业任务监控模块和物理节点监控模块的监控数据进行结构化、统一化后存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;
自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当所述数据存储分析处理模块监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理;
所述作业任务监控模块实时查看任务的信息,包括任务的状态、运行任务的开始和结束时间,任务的运行速度及任务所消耗的时间,记录整个任务运行日志,统计任务数目和条目;
所述数据存储分析处理模块包括:设置热点问题告警,对热点问题进行优先监控,同时建立预测模型,对故障进行预测;
所述数据存储分析处理模块对海量数据进行抽取、转换、分类和聚类、设定集群告警相关性,并根据关联规则对监控数据进行关联分析,定位故障所在。
2.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述集群文件系统监控模块包括:浏览文件记录、namenode日志记录、namenode运行情况、集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型状态。
3.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述集群文件系统监控模块包括:获取HDFS的实时数据和历史状态,根据HDFS信息浏览和定位相关文件,以及监控关闭或者打开所述相关文件时,各个磁盘已经使用和各个磁盘的总容量,剩余容量,文件名称和数目,以及文件的使用情况和历程。
4.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述作业任务监控模块控制集群任务概要信息,堆的大小,所占的比例,Map任务数,Reduce任务数以及各个节点上的任务数量值。
5.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述作业任务监控模块实时查看作业的状态,查询整个作业从开始工作到结束工作耗费的时间总和,对与指定任务的作业相关信息,显示完成的所有进度、总共要进行的任务总数、预计需要完成的任务数量、当前正在运行的任务数量、到目前为止已经完成的任务、没有成功运行的任务和已经终止的任务。
6.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述物理节点监控模块对hadoop集群中全部物理机进行分组,监控每个物理节点平均内存和CPU负载,并对物理节点之间监控信息共享。
7.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,还包括设置WEB界面对所述集群文件系统监控模块、作业任务监控模块、物理节点监控模块、数据存储分析处理模块以及自动修复模块的采集监控过程进行可视化展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新炬网络信息技术股份有限公司,未经上海新炬网络信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510650975.3/1.html,转载请声明来源钻瓜专利网。