[发明专利]一种故障处理方法、装置、设备和计算机存储介质有效
申请号: | 201810321851.4 | 申请日: | 2018-04-11 |
公开(公告)号: | CN108763013B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 刘禹辰;哈晶晶;张柳青 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/34 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 故障 处理 方法 装置 设备 计算机 存储 介质 | ||
本发明提供了一种故障处理方法、装置、设备和计算机存储介质。其中方法包括:利用监控到的异常事件,确定异常事件发生状态矩阵;获取预先配置的各决策项和收益矩阵,所述收益矩阵代表预先配置的各异常事件发生时各决策项的收益状况;利用所述异常事件发生状态矩阵以及所述收益矩阵,确定各决策项的收益值;利用所述各决策项的收益值,确定决策结果。本发明能够在被监控对象发生故障时,衡量不同异常事件对服务带来损失的不同程度,依据收益状况得出正确的决策结果,从而降低故障所带来的损失。
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种故障处理方法、装置、设备和计算机存储介质。
【背景技术】
为了提高服务可用性,互联网公司通常会将一个完整的产品部署在多个服务据点,当一个服务据点的某个产品出现故障时,可以将用户的访问流量调度到其他可以正常提供该产品服务的服务据点,并通过重试机制解决用户访问失败的问题,虽然请求耗时增加,但可以保证功能可用。其中涉及的服务据点可以以机房、机房集群、地域等为单位。
现有技术中主要通过对服务据点中关键监控指标是否存在异常,一旦存在异常则认为该服务据点不可用,将该服务据点的流量调度到其他服务据点。但该方式并未考虑不同异常事件对服务带来损失的程度不同,这种粗放的故障处理方式可能会导致流量调度到其他服务据点后引发更大的损失。
【发明内容】
有鉴于此,本发明提供了一种故障处理方法、装置、设备和计算机存储介质,以便于降低故障所带来的损失。
具体技术方案如下:
本发明提供了一种故障处理方法,该方法包括:
利用监控到的被监控对象的异常事件,确定异常事件发生状态矩阵;
获取预先针对被监控对象配置的各决策项和收益矩阵,所述收益矩阵代表预先配置的各异常事件发生时各决策项的收益状况;
利用所述异常事件发生状态矩阵以及所述收益矩阵,确定各决策项的收益值;
利用所述各决策项的收益值,确定决策结果。
根据本发明一具体实施方式,所述异常事件发生状态矩阵中的各状态值指示对应的异常事件是否发生。
根据本发明一具体实施方式,所述决策项代表将一个特定服务据点的访问流量调度至其他服务据点。
根据本发明一具体实施方式,利用所述异常事件发生状态矩阵以及所述收益矩阵,确定各决策项的收益值包括:
将所述异常事件发生状态矩阵与所述收益矩阵相乘,得到反映各决策项的收益值的矩阵。
根据本发明一具体实施方式,利用所述各决策项的收益值,确定决策结果包括:
将收益值最大的决策项作为决策结果;或者,
将收益值最大的N个决策项输出给用户,依据用户从所述最大的N个决策结果中的选择确定决策结果,N为预设的正整数;或者,
获取收益值最大的决策项的个数M,若M的值满足预设要求,则确定收益值最大的决策项为决策结果,否则确定无正确决策结果,M为预设的正整数。
根据本发明一具体实施方式,该方法还包括:
获取并维护用户针对被监控对象配置的各异常事件、各决策项以及收益矩阵。
本发明还提供了一种故障处理装置,该装置包括:
状态确定单元,用于利用监控到的被监控对象的异常事件,确定异常事件发生状态矩阵;
配置获取单元,用于获取预先被监控对象配置的各决策项和收益矩阵,所述收益矩阵代表预先配置的各异常事件发生时各决策项的收益状况;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810321851.4/2.html,转载请声明来源钻瓜专利网。