[发明专利]一种集群监控方法、系统、设备以及介质在审
| 申请号: | 202210129765.X | 申请日: | 2022-02-11 |
| 公开(公告)号: | CN114546765A | 公开(公告)日: | 2022-05-27 |
| 发明(设计)人: | 张书博 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F11/30 | 分类号: | G06F11/30 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 宋薇薇;马鹏林 |
| 地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 集群 监控 方法 系统 设备 以及 介质 | ||
本发明公开了一种集群监控方法,包括以下步骤:获取第一采集间隔和第一存储间隔;根据所述第一采集间隔采集多个监控数据并根据所述第一存储间隔存储所述多个监控数据;根据所述多个监控数据预测下一周期的监控数据;响应于所述下一周期的监控数据大于阈值,将所述第一采集间隔更新为小于所述第一采集间隔的第二采集间隔以根据所述第二采集间隔采集多个监控数据,并将所述第一存储间隔更新为小于所述第一存储间隔的第二存储间隔以根据所述第二存储间隔存储多个监控数据。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案能够自适应更新采集与存储频率,保证了人工智能平台功能的完整性、稳定性与可用性。
技术领域
本发明涉及服务器领域,具体涉及一种集群监控方法、系统、设备以及存储介质。
背景技术
对于人工智能云平台来说,监控信息与告警机制是较为重要的。平台可以给用户提供训练深度学习模型的基础环境,算力,以及管理方法等服务,对于训练深度学习模型来说,资源的实时监控和合理分配就变得尤为重要,比如CPU(central processing unit,中央处理器),GPU(graphics processing unit,图像处理器),磁盘等。CPU,GPU,内存等的使用率,GPU的功耗,温度,是否存在掉卡现象等,这些指标如果异常,都将影响训练任务的进度,质量,能否训练成功,类似的情况比如由于CPU的使用率过高,CPU的数据读取跟不上,导致GPU没有得到充分利用,形成资源浪费;再比如GPU温度过高产生的潜在威胁,或者由于某些原因导致GPU掉卡等,都有可能导致训练直接停止或失败,甚至造成硬件损坏等情况。
目前应用于人工智能云平台的监控管理与告警管理模块,其工作模式大致为:监控管理模块负责维护采集项的基本信息,比如采集指标,采集频率,存储配置等,并且可以同步更新节点中的配置文件,按照最新指标进行采集与数据存储;告警管理模块负责配置监控项的告警规则,并按照告警周期输出告警信息。
云平台集群监控可以使用TIGK(云环境监控解决方案,是Telegraf、Influx、Grafana、Kapacitor四种组件的组合)的组件组合,对应实现采集、存储、展示、告警的资源监控步骤,其中采集和存储是最为关键的两步,也就是使用telegraf和influxdb实现。其中,telegraf需要配置各监控项的采集间隔,influxdb需要配置相关的存储策略,而这两项想要取到一个平衡是较为困难的。采集间隔过大,监控粒度就会变大,出现异常情况时模块发现异常并作出报警动作的延迟也增大,并且报警前后的数据记录较少,事后难以进行分析检验;采集间隔过小,导致采集存储的数据量增大,加大数据库的读写压力,占用过多内存,并且存储大量的闲时正常数据意义也不大。如果能够对平台监控项进行预警,正常情况下采集间隔较为稀疏,当预测发现将要有报警风险时再缩小采集间隔,对异常情况做出快速响应并密集记录前后数据变化,可以较好的改善问题。然而按照传统的计算监控数据变化率并设置阈值的方法,难以应对缓速变化的数据,并且无法做到提前感知异常。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种集群监控方法,包括以下步骤:
获取第一采集间隔和第一存储间隔;
根据所述第一采集间隔采集多个监控数据并根据所述第一存储间隔存储所述多个监控数据;
根据所述多个监控数据预测下一周期的监控数据;
响应于所述下一周期的监控数据大于阈值,将所述第一采集间隔更新为小于所述第一采集间隔的第二采集间隔以根据所述第二采集间隔采集多个监控数据,并将所述第一存储间隔更新为小于所述第一存储间隔的第二存储间隔以根据所述第二存储间隔存储多个监控数据。
在一些实施例中,根据所述多个监控数据预测下一周期的监控数据,进一步包括:
判断采集到的所述多个监控数据是否大于对应的阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210129765.X/2.html,转载请声明来源钻瓜专利网。





