[发明专利]一种分布式系统及根据该系统进行逐步扩容的方法在审
| 申请号: | 201410116840.4 | 申请日: | 2014-03-27 |
| 公开(公告)号: | CN103944964A | 公开(公告)日: | 2014-07-23 |
| 发明(设计)人: | 李晓华 | 申请(专利权)人: | 上海云数信息科技有限公司 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 201112 上海市闵行*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 系统 根据 进行 逐步 扩容 方法 | ||
技术领域
本发明涉及一种系统扩容方法,具体的涉及一种分布式系统及根据该系统进行逐步扩容的方法。
背景技术
大数据处理系统中,每个节点存储的数据量都很大,比如一个硬盘的实际数据量2.8T。当系统处理能力不足,需要增加数据节点来提升处理能力的时候,如何将原有系统的数据进行重分布,部署到所有数据节点(老节点+新节点),是一个比较难的问题。目前大部分分布式数据系统都采用hash方式分布数据,当增加节点时,由系统使用hash方式进行重分布。但由于数据量巨大,往往24小时也无法完成,而大部分系统工作时间还需要对外提供服务,这个矛盾需要解决。某些产品,比如EMC的greenplum系统,在广东移动信令采集分析系统中,当节点要从10个节点扩充到50个节点时,没有办法做到这一点,只好使用新旧节点并行导入数据,最后的新系统只有40个节点,而不是50个节点。这个问题在从50个到100个的时候会更严重。
发明内容
本发明为解决上述提到的在数据处理系统中进行重新分布扩容存在的缺点,提供一种分布式系统以及根据该分布式系统进行逐步扩容法,能够逐步对系统进行扩容,一方面能够保证系统在白天的工作时间仍能够对外提供系统服务,另一方面保证了新旧节点都可以在系统中运行。
本发明提供一种逐步进行扩容的分布式系统,其包括ETL写入数据模块、缓冲模块、数据重分布模块、数据索引分布表形成模块、调度模块以及多个数据库,所述多个数据库承载在多个服务器上,所述缓冲模块为ETL移动硬盘,所述缓冲模块以及多个数据库与所述ETL写入数据模块通讯连接;所述调度模块包括暂停单元、启动单元以及添加任务单元。
具体的,一种根据上述分布式系统进行逐步扩容的方法,其包括以下步骤:
S1:在分布式系统的多个新的数据库产生后,根据多个新的新数据库的数量,数据索引分布表形成模块,生成新的数据索引分布表;
S2:所述暂停单元暂停ETL写入数据模块写入数据的操作,将文件保存至缓冲模块,所述添加任务单元将ETL写入数据的任务添加入任务队列;
S3:所述启动单元启动数据重分布模块,将数据按新的数据索引分布表进行分布;
S4:重新启动ETL写入数据模块,加速处理队列中ETL写入数据的任务;直至ETL写入数据完成后,重新启动在线查询任务。
优选的,数据索引分布表形成模块根据新数据库的数量,通过业务规则生成新的数据索引分布表。
优选的,所述新的数据索引分布表将旧节点中的数据的30%-60%分布至新的节点中。
优选的,所述新的数据索引分布表将旧节点中的数据的50%分布至新的节点中。
优选的,所述添加任务单元包括选择单元以及命令单元,所述选择单元能够设定ETL写入数据的任务的优先级,所述命令单元根据任务的优先级选择任务执行的先后命令。
优选的,ETL写入数据的任务的优先级分为最高优先级、次优先级以及普通优先级。
本发明的优点如下所述:本发明采用分天逐步扩容法对系统进行扩容,扩容后老节点以及新节点都能够使用,解决了扩容后老节点不能使用的问题,从而降低了服务器的成本,增加了收益。大数据服务器的成本一般在5-15万元左右,按10万1台计算,当有20个老节点能被利用时,就可以节约200万元。并且,能够逐步对系统进行扩容,一方面能够保证系统在白天的工作时间仍能够对外提供系统服务,另一方面保证了新旧节点都可以在系统中运行。
附图说明
图1为本发明提供的逐步进行扩容的分布式系统的结构示意图;
图2为本发明的调度模块的结构示意图;
图3为本发明的分布式系统逐步扩容法中扩容时的示意图。
具体实施方式
首先,对本发明中涉及到的一些术语进行解释说明:
数据库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。数据库通常用于存储企业的历史数据,并通过ETL过程,产生企业报表等。
ETL是指将分布的、异构数据源中的数据(例如关系数据、平面数据文件)等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据库中,成为企业报表、联机分析处理、数据挖掘的基础。ETL任务一般在夜间运行,处理企业的大批量数据,形成关键运营指标(KPI,Key Performance Indication)装载到报表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云数信息科技有限公司,未经上海云数信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410116840.4/2.html,转载请声明来源钻瓜专利网。





