[发明专利]高性能计算历史作业数据的数据处理方法、装置及存储系统在审

申请号：	201810344551.8	申请日：	2018-04-17
公开（公告）号：	CN108595578A	公开（公告）日：	2018-09-28
发明（设计）人：	苗海锋;张晋锋;解文龙;毕研儒	申请（专利权）人：	曙光信息产业（北京）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京兰亭信通知识产权代理有限公司 11667	代理人：	赵永刚
地址：	100193 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	高性能计算作业数据存储系统热点数据数据处理分布式计算多维度数据库查询输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种高性能计算历史作业数据的数据处理方法、装置及存储系统。所述方法包括：从HBase数据库获取高性能计算历史作业数据；对所述高性能计算历史作业数据进行MapReduce分布式计算，得到高性能计算历史作业热点数据；将所述高性能计算历史作业热点数据输出到MySQL数据库。本发明能够实现高性能计算历史作业数据的多维度查询。

技术领域

本发明涉及高性能计算技术领域，尤其涉及一种高性能计算历史作业数据的数据处理方法、装置及存储系统。

背景技术

随着互联网技术、大数据的快速发展，高性能计算(High PerformanceComputing，HPC)的应用领域越来越广泛，导致高性能计算历史作业数据急速增长。为了有效存储大规模的高性能计算历史作业数据，一些IT架构师开始研究大数据库系统，称为NoSQL。NoSQL数据库是指用于存储和处理大规模结构化或非结构化数据，能够随着数据规模的增大而扩展的数据库系统。

HBase是一种参照Google Bigtable实现的开源NoSQL数据库，它具有强一致性、高性能随机写、面向列可动态扩展、可水平伸缩的特性，适合于各种非结构化和半结构化的松散数据的存储和管理，被广泛用于处理高性能计算历史作业数据。

在实现本发明的过程中，发明人发现现有技术中至少存在如下技术问题：

对HBase数据库进行查询时，无法进行多维度查询或分页查询，影响用户体验。

发明内容

为解决上述问题，本发明提供一种高性能计算历史作业数据的数据处理方法、装置及存储系统，能够实现多维度查询。

第一方面，本发明提供一种高性能计算历史作业数据的数据处理方法，包括：

从HBase数据库获取高性能计算历史作业数据；

对所述高性能计算历史作业数据进行MapReduce分布式计算，得到高性能计算历史作业热点数据；

将所述高性能计算历史作业热点数据输出到MySQL数据库。

可选地，所述对所述高性能计算历史作业数据进行MapReduce分布式计算，得到高性能计算历史作业热点数据包括：

对所述高性能计算历史作业数据进行数据组装；

对组装后的高性能计算历史作业数据进行分析过滤，筛选出符合预设条件的热点数据；