[发明专利]云平台异常事件的监控及自动处理的方法和框架在审
申请号: | 201710283492.3 | 申请日: | 2017-04-26 |
公开(公告)号: | CN107070720A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 汪深海 | 申请(专利权)人: | 深圳市神云科技有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L29/08 |
代理公司: | 广州番禺容大专利代理事务所(普通合伙)44326 | 代理人: | 刘新年 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平台 异常 事件 监控 自动 处理 方法 框架 | ||
技术领域
本发明涉及云计算、云监控及自动化运维领域,特别涉及一种云平台异常事件的监控及自动处理的方法和框架。
背景技术
由于云平台架构的复杂性和工作负载的不可预测性,以及云平台上资源的动态性、多样性和资源规模巨大给云平台监控带来了一定的困难。另外面对云环境下各种各样的资源,包括物理硬件、主机、存储、网络、计算、虚拟系统等,在传统的监控及异常事件的处理中,通常采用监控告警系统通知运维人员,运维人员手动处理;对于同类问题出现多次,运维人员主动总结处理方法并通过编写脚本的方式以实现半自动的处理。久而久之,系统上分布着数量不少的来自不同运维人员编写的脚本,对于它们的维护又带来另外的管理问题。而且这种方式仍存在着异常事件遗漏率高及处理效率低等问题。因此如何形成一种高度抽象的监控兼自动处理异常事件的框架,以及对于云平台种类繁多的异常事件,如何防止异常事件被遗漏,避免引发更严重的系统问题,如何解决运维人员在面对数量巨大异常事件时人工处理任务繁重低效等等一系列问题,亟待我们去解决。
发明内容
本发明通过提供一种云平台异常事件的监控及自动处理方法和框架,以实现对云平台不同层次的应用服务、中间件和基础设施资源的监控及异常事件的自动处理,从而防止异常事件被遗漏,避免引发更严重的系统问题,并完善优化自动操作指令的生成,进一步解决了运维人员在面对数量巨大异常事件时人工处理任务繁重低效的问题。
为解决上述技术问题,本发明一方面提供一种云平台监控异常事件自动处理方法,包括:
通过规则引擎定义的规则判断采集的数据中是否记录有异常事件;当判定所述采集的数据记录有异常事件时,工作负载服务调用流程控制引擎,所述流程控制引擎根据知识库的数据产生操作指令;工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。
可选地,在通过规则引擎定义的规则判断采集的数据中是否记录有异常事件之前,所述方法还包括对所有待监控对象进行数据采集。
可选地,所述待监控对象包括物理机、虚拟机、存储设备和网络设备中的至少之一。
可选地,通过所述自动化运维接口处理所述异常事件,具体包括“通过API调用、远程命令执行的方式完成所述操作指令的执行。优选地,所述自动化运维接口包括物理机管理接口、虚拟机管理接口、进程管理接口中至少之一。
可选地,所述对所有待监控对象进行数据采集包括:通过主动拉取和被动接收两种方式采集所述数据;优选地,对于云平台的事件源支持脚本方式扩展;因此可以将尽可能多异常事件采集进来。
可选地,所述通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件包括:获取通过所述规则引擎定义的至少一种规则与各个规则对应的阈值条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述规则对应的阈值条件;
当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;
当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。
可选地,在通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件之后,所述方法还包括:当判定所述采集的数据中记录有异常事件时,通过所述规则引擎将记录所述异常事件的数据发送到异常消息队列。
可选地,所述规则引擎还可以将记录所述异常事件的数据转换成框架组件所能处理的告警信息。
可选地,在所述工作负载服务调用流程控制引擎之前,还包括:工作负载服务从消息队列中获取所述异常事件。
可选地,所述方法还包括所述工作负载服务将所述异常事件处理过程和结果记录到历史数据库,所述历史数据库中的操作记录会定期同步更新到知识库中。
可选地,所述方法还包括工作负载服务将所述异常事件的处理过程和结果反馈回消息队列中。
可选地,通过所述自动化运维接口处理所述异常事件之后,还包括:通过API服务查看跟踪异常事件的处理过程和历史处理记录。
可选地,在对所有待监控对象进行数据采集后,所述方法还包括将采集的数据转存到消息队列。
可选地,所述消息队列可以根据处理要求划分,包括但不限于事件源队列,处理结果反馈队列,操作过程记录队列。所述消息队列主要用于满足事件源数据、处理结果反馈数据和操作过程记录数据的临时存储;以及通过API服务可以从消息队列中获取数据,供用户查看中间处理的情况。
本发明另一方面提供一种云平台监控异常事件自动处理框架,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市神云科技有限公司,未经深圳市神云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710283492.3/2.html,转载请声明来源钻瓜专利网。