[发明专利]一种大规模分布式存储的操作耗时自动监控方法与系统有效
申请号: | 202210084786.4 | 申请日: | 2022-01-25 |
公开(公告)号: | CN114115751B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 董元昊;张大帅 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 初晓丽 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 分布式 存储 操作 耗时 自动 监控 方法 系统 | ||
本发明提供了一种大规模分布式存储的操作耗时自动监控方法与系统,本发明分别通过日志自动分析、超时预测以及日志过滤对大规模集群下日志记录与处理进行了优化,实现大规模集群下耗时情况的快速定位、自动分析,通过提前预测在大规模分布式存储中可能出现的超时问题,使得集群运行更加稳定,且集群出现超时问题后可快速定位原因,不影响集群的正常使用,提高定位效率。
技术领域
本发明涉及分布式存储技术领域,特别是一种大规模分布式存储的操作耗时自动监控方法与系统。
背景技术
在大规模存储集群下,节点数量达到上百个时,命令容易出现超时等意外情况。部分操作在所有节点执行命令,当出现某个节点系统资源不足,或者是网络出现异常状况,会出现某个操作耗时较长的情况,出现各种不可预知的错误。如今存储节点不断增加,问题定位会变得更加繁琐。在分布式存储系统上会有日志记录,但是目前的日志记录比较简略,有些操作只在本节点执行和记录,主节点无法查询。另外日志记录会占用较多的磁盘空间,可能会对集群性能产生影响。
发明内容
本发明的目的是提供一种大规模分布式存储的操作耗时自动监控方法与系统,旨在解决现有技术中操作超时问题无法准确定位的问题,实现大规模集群下耗时情况的快速定位、自动分析。
为达到上述技术目的,本发明提供了一种大规模分布式存储的操作耗时自动监控方法,所述方法包括以下操作:
设置超时原因,当出现操作超时时,解析前端下发请求,查找函数调用堆栈中的底层函数,取出调用的命令进行分析,根据超时原因的出现次数以及影响程度进行排序,逐个匹配分析超时原因,生成异常报告;
对导入的历史日志数据进行分析,综合计算不同超时原因出现频率与重要程度,对可能出现耗时的命令的代码进行标注;
对日志文件进行压缩和过滤,将各个节点向主节点上报的信息,保留不同部分,将相同内容集中归类。
优选地,所述超时原因包括网络问题、等待其他操作、等待其他模块以及for循环调用串行执行。
优选地,所述异常报告中体现异常的节点、命令以及出错原因。
优选地,所述对导入的历史日志数据进行分析包括:对集群命令的执行状况、代码逻辑进行综合分析,对串行执行的命令、循环中频繁调用的命令进行分析。
本发明还提供了一种大规模分布式存储的操作耗时自动监控系统,所述系统包括:
日志自动分析模块,用于设置超时原因,当出现操作超时时,解析前端下发请求,查找函数调用堆栈中的底层函数,取出调用的命令进行分析,根据超时原因的出现次数以及影响程度进行排序,逐个匹配分析超时原因,生成异常报告;
超时预测模块,用于对导入的历史日志数据进行分析,综合计算不同超时原因出现频率与重要程度,对可能出现耗时的命令的代码进行标注;
日志过滤模块,用于对日志文件进行压缩和过滤,将各个节点向主节点上报的信息,保留不同部分,将相同内容集中归类。
优选地,所述超时原因包括网络问题、等待其他操作、等待其他模块以及for循环调用串行执行。
优选地,所述异常报告中体现异常的节点、命令以及出错原因。
优选地,所述对导入的历史日志数据进行分析包括:对集群命令的执行状况、代码逻辑进行综合分析,对串行执行的命令、循环中频繁调用的命令进行分析。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210084786.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发光器件和显示装置
- 下一篇:一种低温氢气液化的装置及使用方法