[发明专利]一种大数据集群的运行维护方法及装置在审
申请号: | 201910205420.6 | 申请日: | 2019-03-18 |
公开(公告)号: | CN109960690A | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 范亚平;王浩杰 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/28 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李博洋 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 修复 运行维护 集群 进程运行信息 错误类型 运维 扫描 指令 策略发送 错误触发 错误日志 平台稳定 扫描程序 提取程序 修复程序 自动执行 进程 错误码 最大化 预设 采集 监视 查询 检测 重复 概率 部署 保证 | ||
本发明公开一种大数据集群的运行维护方法及装置,该方法包括:获取部署于大数据集群中的至少一第一执行对象所采集的各组件的被测进程的进程运行信息;根据进程运行信息扫描被测进程是否存在程序错误;如果扫描被测进程存在程序错误,扫描程序错误触发点的错误日志,提取程序错误的错误类型;根据错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;将修复指令及修复策略发送至第一执行对象,使第一执行对象修复程序错误。通过实施本发明,可以自动执行检测、修复工作,运维人员无需时刻监视平台正常与否,并且能够降低运维人员重复工作的概率,提高大数据平台的运行维护效率,能够最大化减少对业务的影响,保证大数据平台稳定运行。
技术领域
本发明涉及大数据处理技术领域,具体涉及一种大数据集群的运行维护方法及装置。
背景技术
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据处理依赖众多服务,如HDFS(分布式文件系统)、YARN(资源管理系统)、Spark(分布式内存计算框架)、HBASE(分布式面向列的数据库)、HIVE(基于hadoop的数据仓库工具)等等。由于网络震荡、电压不稳、资源抢占、误操作等原因都可能造成某些组件挂掉,需要维护人员定期巡检平台运行情况,发现异常需要排除程序错误后启动挂掉的服务,如果启动不及时可能会出现业务数据积压,甚至影响业务的运行,给大数据平台稳定运行带来了极大挑战。而且由于大数据平台使用地点较多,出现重复性程序错误概率较大,因此运维人员需要做大量重复性劳动。还有一些大数据平台由于权限的限制,不允许远程操作,给运维人员巡检及程序错误修复带来极大不便。
发明内容
有鉴于此,本发明实施例提供了一种大数据集群的运行维护方法及装置,以解决现有技术中对于大数据平台的人工运维存在的重复性劳动较多且效率较低的问题。
根据第一方面,本发明实施例提供了一种大数据集群的运行维护方法,所述大数据集群中包括至少一个第一执行对象,所述第一执行对象与组件具有耦合对应关系;所述方法包括:获取部署于所述大数据集群中的至少一第一执行对象所采集的各组件的被测进程的进程运行信息;根据所述进程运行信息扫描所述被测进程是否存在程序错误;如果扫描所述被测进程存在程序错误,扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;将所述修复指令及修复策略发送至所述第一执行对象,使所述第一执行对象修复所述程序错误。
结合第一方面,在第一方面第一实施方式中,根据所述进程运行信息扫描所述被测进程是否存在程序错误,包括:根据所述进程运行信息扫描所述大数据集群中的被测进程是否存在异常;如果扫描所述被测进程存在异常,则扫描异常服务日志,判断是否存在程序错误;如果扫描所述被测进程不存在异常,则判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描;如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在程序错误的步骤,扫描下一被测进程。
结合第一方面第一实施方式,在第一方面第二实施方式中,如果判断不存在程序错误,则启动所述被测进程;判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描;如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在程序错误的步骤,扫描下一被测进程。
结合第一方面,在第一方面第三实施方式中,在根据所述进程运行信息扫描所述被测进程是否存在程序错误之前,所述的运行维护方法还包括:读取配置文件,获取所述大数据集群中的各组件的剩余启动次数。
结合第一方面第三实施方式,在第一方面第四实施方式中,根据所述错误类型在预设的错误码库中查询对应的修复策略,包括:根据所述错误类型在所述预设的错误码库中查询是否存在匹配的修复策略;如果所述预设的错误码库中存在匹配的修复策略,则提取所述修复策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910205420.6/2.html,转载请声明来源钻瓜专利网。