[发明专利]一种易扩展的、支持异构集群的监控系统有效

专利信息
申请号: 200910093442.4 申请日: 2009-09-21
公开(公告)号: CN101667034A 公开(公告)日: 2010-03-10
发明(设计)人: 祝明发;肖育前;阮利;肖利民 申请(专利权)人: 北京航空航天大学
主分类号: G05B19/418 分类号: G05B19/418
代理公司: 北京慧泉知识产权代理有限公司 代理人: 王顺荣;唐爱华
地址: 100191北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 扩展 支持 集群 监控 系统
【说明书】:

(一)技术领域:

发明涉及一种集群监控系统,特别是涉及一种易扩展的、支持异构集群的监控系统。其中扩展性包括集群规模的扩展和监控功能的扩张两方面,支持异构指的是该监控系统能同时监控集群系统中的多种不同体系结构的结点机、网络设备以及其它设备,属于计算机技术领域。

(二)背景技术:

目前,集群系统由于其卓越的性能价格比、良好的可扩展性、高可用性,已经成为当今高性能计算机的主流。2009年6月最新的TOP 500中,有82%是集群系统。集群系统是制造和运行成本极其昂贵,所以集群运行期间的性能指标应该是可以观测的,以便用户可以根据这些性能数据调整以及优化应用程序和系统的性能。此外,集群系统是由多个结点组成的,机群中结点故障发生率比较高,应该提供一种故障检测方法,迅速检测和定位发生故障的结点。

为了解决这些问题,人们为不同的集群开发出了不同的监控系统,这些监控系统能实时的提取集群中各个结点的状态信息,如CPU使用率、内存占用量、主机活动情况、是否发生故障等。一方面集群系统管理员能够通过监控系统提供的信息,观测集群的使用情况,快速定位、修复发生故障的结点,维护集群系统的安全稳定运行;另一方面普通用户在集群系统上编写应用程序时,可以使用监控系统观察该程序的资源使用情况和性能相关的信息,从而调试和优化应用程序,提高程序的效率和集群系统的使用率。目前,比较常用的监控系统有Ganglia、Supermon等。

Ganglia采用了集群分组的策略,每个结点向同一个组内所有结点广播数据,同时也接收来自同一个组内其它结点的数据,这样每个结点就保存了一个分组的全局的状态数据镜像;然后,负责监控的主机再向分组内的任意一个结点采集整个分组的数据,并将数据处理保存到RRD数据库中。因此,Ganglia具有高可用的特点,由于每个结点都保存了全局的状态数据,某些结点发生故障不会使监控系统失效。但是,由于每个结点都保存了全局的数据,导致了数据的过分冗余。此外,由于Ganglia使用RRD数据库保存数据,虽然RRD数据库中的数据很便于生成图形,但是很难用于其它用途,如数据共享,数据处理,故障预测等。

Supermon由一个监控程序和多个监控代理程序两部分组成:1)监控程序采用轮训的方式向监控代理程序收集数据,并将数据保存到数据库;2)监控代理程序又分为内核模块和守护进程两部分,其中内核模块通过读取Linux内核数据,并将数据以S-表达式的方式输出到/procs文件系统当中,守护进程则接收监控程序的请求,读取/procs文件系统的数据并发送到监控程序。Supermon的特点是:1)数据采样率高,其最高采样率能每秒达到6000次,从而能提供更加实时与准确的监控数据;2)独特的S-表达式数据表达方式,能很容易实现监控数据的扩展,具备高的灵活性。但是,Supermon采用的单一监控主机的方式,即一台监控主机负责收集,处理所有结点的数据,因此很容易导致单点故障,并且很难适应系统规模的扩展;此外,Supermon监控代理程序的内核模块与Linux操作系统内核是紧耦合的,每次系统内核升级,都必须重新编译和安装程序。

综观现有的集群监控系统,其设计之时的集群系统中,结点规模较小(不超过512个结点),而且所有结点都是同一体系结构。但是,随着集群系统中结点数目的快速增长(多达数千个),集群中不断引入异构类型的新结点和设备,使得这些历史上的监控系统既不能再适应新系统规模的增长,也不能满足当今集群系统中的异构的需求。

具体而言,现有监控系统中主要存在的问题在于:不能很好地支持超大规模的集群系统,即当机群结点数目大规模增长时,主监控结点负载急剧增长,监控系统响应时间也变得很长,令人无法接受;此外,集群体系结构开始朝着异构方向发展,现有的监控系统不能满足各种异构类型的新结点和设备动态增加的需求。

在已有监控系统的基础之上,并针对其不足之处,本发明一种易扩展的、支持异构集群的监控系统。相对上述监控系统,该系统有两大特色:1)采用了类似Ganglia的分组策略的层次化方法,从而很好的实现规模的扩展,并且通过采用局部冗余的方法,既保证了监控系统的高可用性,又减少了数据的冗余,从而进一步增强节点规模的扩展能力;2)采用了松散耦合的模块化设计方式,能很好的实现监控功能的增加、删除和定制,配置多种不同的监控策略,从而满足异构集群中不同类型节点的监控需求。

(三)发明内容:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910093442.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top