[发明专利]基于文件访问热度的动态HDFS副本个数计算方法有效
申请号: | 201810228575.7 | 申请日: | 2018-03-20 |
公开(公告)号: | CN108416054B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 代钰;杨雷;化红翠;王际烽;张斌 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/13;G06F16/17 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 刘晓岚 |
地址: | 110169 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于文件访问热度的动态HDFS副本个数计算方法,涉及数据分析技术领域。基于文件访问热度的动态HDFS副本个数计算方法,首先通过改进的马尔可夫模型分析得到热点文件的访问热度随时间变化的规律,并根据文件访问热度的计算公式,对文件的访问热度进行预测。然后采用排队论算法,给出副本个数的计算公式,动态调整热点文件的副本个数。本发明提供的基于文件访问热度的动态HDFS副本个数计算方法,解决了对热点文件的访问瓶颈的问题,提高了集群的服务效率。 | ||
搜索关键词: | 基于 文件 访问 热度 动态 hdfs 副本 个数 计算方法 | ||
【主权项】:
1.一种基于文件访问热度的动态HDFS副本个数计算方法,其特征在于:包括以下步骤:步骤1、根据分布式文件系统HDFS上文件访问日志表并按照文件访问热度的计算公式计算得到统计周期内各文件的访问热度,并按统计时间内文件的访问热度之和对文件进行降序排序,选择排序列表中的前20%的文件作为热点文件,构建热点文件‑访问热度序列作为待预测序列,进行访问热度的预测;步骤2、采用层次聚类算法对热点文件‑访问热度序列进行状态空间划分;步骤3、对划分了状态空间的热点文件‑访问热度序列进行马氏性检验,如果满足马氏性,将该序列作为改进马尔可夫模型的输入序列,否则该序列不能用改进的马尔可夫模型来处理;步骤4、将满足马氏性的热点文件‑访问热度序列作为改进马尔可夫模型的输入序列,预测下一时刻热点文件的访问热度,并将预测得到的访问热度写入到热点文件‑访问热度数据库表中;步骤5、基于M/M/r单队列多服务台的队列模型对副本访问请求进行建模,并在此基础上设置节点上副本的吞吐量来确定副本的个数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810228575.7/,转载请声明来源钻瓜专利网。