[发明专利]一种HDFS分布式文件系统IO性能调优方法、系统及设备有效
申请号: | 201911223200.2 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111125005B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 申晓青;贾晓露 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/182 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 李舜江 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hdfs 分布式 文件系统 io 性能 方法 系统 设备 | ||
本发明提出的一种HDFS分布式文件系统IO性能调优方法、系统及设备,适用于特定场景评估HDFS最优I/O性能。它可以根据用户对精确度、性能测试时间等要求来分等级评估HDFS最优的I/O性能和配置。使用该调优装置,可避免认为因素的影响,导致多次测试的差异性。
技术领域
本发明涉及文件系统技术领域,更具体的说是涉及一种HDFS分布式文件系统IO性能调优方法、系统及设备。
背景技术
Hadoop Distributed File System(HDFS)—Apache Hadoop项目的子项目,是一个高度容错的分布式文件系统,设计用于在低成本硬件上运行。HDFS提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
HDFS是大数据平台存储基础,评估一个大数据平台的能力,首当其冲是判断该平台HDFS I/O性能。目前市场主流的测试场景有两种,一种是基于固定集群配置挖掘HDFS极限I/O性能,一种是基于特定场景评估HDFS最优I/O性能。不同测试场景采用的思路大相径庭。本发明仅针对基于特定场景评估HDFS最优I/O性能调优。
传统的测试采用手动调优的方式实现。这种方式存在一些问题,首先测试人员的高要求,手动调参人员需具备一定的操作系统底层、Yarn、MapReduce、资源监控分析等技能和分析能力;其次,调参趋向性亦受人为因素的影响,这就导致HDFS系统I/O性能调优存在一定的失真风险。
发明内容
针对以上问题,本发明的目的在于提供一种HDFS分布式文件系统IO性能调优方法、系统及设备。
本发明为实现上述目的,通过以下技术方案实现:一种HDFS分布式文件系统IO性能调优方法,包括如下步骤:
S1:确定HDFS测试场景和集群可用资源区间;
S2:形成数据训练库;
S3:创建数据模型并形成预测矩阵,输出最优值及最优配置。
进一步,所述步骤S1包括:
S11:确定HDFS分布式文件系统I/O性能测试采用TestDFSIO测试工具;
S12:明确集群的Yarn资源、MapRduce资源区间和集群硬件总资源。
进一步,所述步骤S12具体为:
通过Ambari监控UI明确Yarn资源和MapRduce资源区间;
通过linux指令lscpu或cat/proc/meminfo明确集群硬件总资源。
进一步,所述步骤S2包括:
S21:在默认推荐配置下执行TestDFSIO测试工具的测试语句,将结果以矩阵的形式存放;
S22:在获取集群可用资源区间内抽样分配更新参数,并将测试结果以矩阵的形式输出。
进一步,所述步骤S3包括:
S31:根据数据训练库、随机森林和贝叶斯算法,生成预测矩阵;
S32:根据预测矩阵中的参数使用预设脚本进行测试。
进一步,所述步骤S32之后还包括:
S33:将测试结果添加至数据训练库;
S34:进行数据模型创建,预测矩阵形成、自动化测试操作,直至多次连续循环测试结果均达到最优,则输出最优值及最优配置。
相应的,本发明还公开了一种HDFS分布式文件系统IO性能调优系统,包括:确定单元,用于确定HDFS测试场景和集群可用资源区间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911223200.2/2.html,转载请声明来源钻瓜专利网。