[发明专利]跨数据中心集群的分布式系统监控方法及系统有效

专利信息
申请号: 201310636793.1 申请日: 2013-12-02
公开(公告)号: CN103685486B 公开(公告)日: 2017-01-18
发明(设计)人: 杨庆林;孙毓忠 申请(专利权)人: 中国科学院计算技术研究所
主分类号: H04L29/08 分类号: H04L29/08;H04L12/26
代理公司: 北京律诚同业知识产权代理有限公司11006 代理人: 祁建国,梁挥
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据中心 集群 分布式 系统 监控 方法
【说明书】:

技术领域

本发明涉及服务器集群监控领域,尤其涉及横跨多数据中心实现监控系统及方法。

背景技术

随着云计算越来越多地应用到信息产业的各个领域,云平台所依托的数据中心数量逐渐增多、规模日趋庞大,进而出现单一云平台中运行的业务横跨多个数据中心的情况。如何有效地实现监控和管理庞大数量、跨数据中心、跨地域的集群设备并且保证系统的高性能和高可用性是当前面临的必要和紧迫的问题。

目前业界普遍采用的第一种监控架构是金字塔式的,例如由某大学的国家高性能计算机实验室研发针对的通用的应用于大规模Linux集群的监控系统软件SuperMon,它分为三个层次:底层每个节点上的数据服务(mon)用来收集节点状态信息,中层的数据集中器(Supermon)汇总来自每个mon的数据并处理来自上层的数据请求实例,最上层的应用客户端或顶层数据集中器汇总每个Supermon的数据,进行显示或者再次汇总;另外由Yahoo开发的基于Hadoop之上的用于分布式系统状态监控的大型数据采集与分析系统Chukwa,由Agent和Collector组件组成,Agent负责采集监控主机上原始数据,Collector负责收集Agent发送的数据并做持久化处理。这些软件组成的模块首先所有最底层被监控的服务器节点上的代理程序收集数据,然后每个代理程序将数据汇聚给所在集群的中心监控服务器节点,最后中心监控服务器节点将数据累积上传给总监控服务器节点,监控集群的数据则需要从总监控节点获取。

采用这种架构存在以下几个问题:

(1)大量监控数据由下层服务器节点同时向总监控节点汇集,同时总监控节点还要响应业务方面获取监控数据的请求,无疑极大增加了总监控节点的输入输出压力,同时也直接导致稳定性下降,不能很好地满足日常业务需求。

(2)监控系统中节点角色的唯一性,如果中心监控节点出现问题,则部分监控系统就失效了;如果总监控服务器节点出现故障或宕机,则整个监控系统随之陷于瘫痪。

(3)面对跨多个数据中心的业务时,总监控节点在总数据量和架构的瓶颈限制下将很难横跨多个数据中心,将很大程度上减慢响应的时间而无法满足实时性的要求。

第二种监控架构为分布式架构,突出的代表是由美国UC Berkeley开发维护的Ganglia软件,它基于XML技术的数据传递可以是系统的状态数据跨越不同的系统平台而进行交互,解决了系统间异构性的问题;采用基于多播的listen/announce协议,每个节点向所有相邻节点发出自身节点的状态监控信息。收发大量不必要的冗余信息,造成网络和节点I/O开销非常大,导致监控数据刷新的频率较慢。

另外,上面所述的Ganglia在用户进行安装初始化过程中,每个节点的代理端gmond都需要手工配置参数后才能运行,如果需要变更运行配置参数,还需要逐个节点进行修改后重启程序,过程非常繁琐,是监控系统的灵活性和可扩展性随之下降。

发明专利一种超大规模集群监控系统及方法,该系统包括分区监控服务器和中心监控服务器;每个分区监控服务器采集到每个分区集群内部信息后,将该信息推送至中心监控服务器;中心监控服务器接收来自分区监控服务器的信息,并按照信息对所有分区进行统一配置,然后将统一配置结果提供给分区监控服务器;分区监控服务器接收来自中心监控服务器的统一配置结果,按此结果对集群进行监控和管理。该发明采用了分区监控服务器和中心监控服务器的金字塔架构,当下层分区监控服务器及被监控的节点规模增大时,中心监控服务器的网络和本机I/O非常大。并且没有实现对于业务个性化监控请求的定制,没有对于单个业务运行在多个数据中心情况下的协同处理,仍然停留在单个数据中心的层面。但是仅仅解决业务定制的问题,并没有将各层节点的职能做了清晰地划分而使监控集群更加高效。

发明专利分布式集群监控系统及方法,该方法包括以下步骤:每个分中心监控服务器采集到每个分布式集群内部的信息后,将信息推送至中心监控服务器。中心监控服务器接收来自分中心监控服务器的信息,并按照信息对所有分布式集群进行统一配置,然后将统一配置的结果提供给分中心监控服务器。分中心监控服务器接收来自中心监控服务器的统一配置结果,按照配置结果对分布式集群进行监控和管理。该发明为每个子集群创建了分中心的监控器,将采集到的集群内部信息推送到中心监控服务器,仍然会造成中心监控服务器的网络和节点I/O巨大的问题没有解决。没有满足业务的个性化监控定制需求,并且针对各层节点的动态扩展性和运行时稳定性不佳。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310636793.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top