[发明专利]一种基于模式运行时特征的模式作业运行状态分析方法有效
申请号: | 201810353590.4 | 申请日: | 2018-04-19 |
公开(公告)号: | CN108628727B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 曾云辉;朱光慧;刘鑫;张凯;王祥凯 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F11/32;G06F11/30 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
地址: | 250101 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模式 运行 特征 作业 状态 分析 方法 | ||
本发明涉及一种基于模式运行时特征的模式作业运行状态分析方法,包括:(1)实时提取状态特征、量化特征;(2)根据状态特征判别模式作业运行状态;(3)根据量化特征分析模式作业性能是否发生异常。本发明基于定性信息的状态特征,通过对有限个状态的直接判断,可有效发现一定类别的故障,提高了故障发现的及时性。基于性能参数的量化特征,通过相关性分析、常态范围判别、固定周期预测、时间序列分析等技术,能够及时识别模式作业的运行异常,能够有效发现计算节点挂死、作业无输出、中间变量异常等目前存在的不便识别和判断的现象,有利于模式的业务连续性运行保障。
技术领域
本发明涉及一种基于模式运行时特征的模式作业运行状态分析方法,属于高性能计算的技术领域。
背景技术
超级计算机的快速发展推动了海洋数值模式软件的迅速应用,其运行规模也在迅速攀升。在大规模作业的运行过程中,由于系统复杂、涉及资源范围较大,因此经常会出现模式作业运行故障、中间变量输出异常、作业挂死等问题。
目前,利用已有的作业管理系统和命令行工具,在一定程度上可以实现部分作业状态和资源状态信息的获取,在模式软件运行过程中也会输出部分中间数据和运行日志,但是不能及时发现模式作业运行故障,不能提前发现异常、识别作业挂死等现象。因此,如何充分利用获取到的状态监测信息和性能监测数据来及时发现故障、提前发现异常是需要解决的关键问题之一。
发明内容
针对现有技术的不足,本发明提供了一种基于模式运行时特征的模式作业运行状态分析方法。
本发明通过对模式作业运行过程进行全面、深入地监测,综合状态信息和性能数据,提出了模式运行时特征。获取的运行时特征信息包括定性数据和定量数据。定性分析针对可能的有限个状态直接进行故障筛选和关联判定;定量分析采用统计分析和时间序列分析方法,预测其在下一个时间的趋势走向和量值范围,通过比较实际输出与预期输出的差别来判断其是否发生异常。
本发明通过对模式运行时特征的关联分析和动态分析,能够达到及时报警、提前预警的目的,进一步提高了模式运行过程的可靠性和异常因素影响分析能力,有利于保障模式作业的业务连续性运行。
术语解释:
1、模式年,指海洋数值模式中的时间年,即365天;
2、模式天,指海洋数值模式中的时间天,即1天。
本发明的技术方案为:
一种基于模式运行时特征的模式作业运行状态分析方法,包括:
(1)实时提取基于定性信息的状态特征、基于性能参数的量化特征
所述状态特征包括计算节点状态、网络状态、文件系统状态、队列状态、作业状态。
计算节点状态,是指高性能计算系统中计算节点的状态;包括idle节点空闲、busy节点繁忙、boot节点正在引导、down节点宕机或监测不通、sleep节点已睡眠、wakeup节点正在唤醒、hardft节点硬件故障、softft节点软件故障。
网络状态,是指高性能计算系统中计算节点的网络接口卡状态及交换机接口状态;包括ok正常、down停止、init初始化、need_reboot需要重新加载系统、lid_err节点lid错误、guid_err节点guid错误、iblink_err节点IB链路故障、除pcie_8x5g之外的PCIE链路。
文件系统状态,是指高性能计算系统中全局文件系统的状态及计算节点挂载的文件系统客户端状态;包括ok正常、unmounted未挂载、error错误。
队列状态,是指高性能计算系统中计算节点资源队列的状态;包括Open:Active即开启:激活、Close:Inactive即关闭:非活动。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810353590.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:CPU状态信息记录方法和装置
- 下一篇:检测方法和装置