[发明专利]基于异构Hadoop集群环境的数据块放置方法及系统在审
申请号: | 202010185518.2 | 申请日: | 2020-03-17 |
公开(公告)号: | CN113407620A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 宋莹;许家豪 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/27 | 分类号: | G06F16/27 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100101 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hadoop 集群 环境 数据 放置 方法 系统 | ||
1.一种基于异构Hadoop集群环境的数据块放置方法,其特征在于,包括:
步骤1、根据数据块被访问的频率,将存储于异构集群环境中的数据块分为热点数据块、中热数据块、正常数据块和冷门数据块,根据异构集群环境中各数据节点的性能和预设的性能标准,将异构集群环境中数据节点按性能的不同进行分类;
步骤2、进行数据块相关性分析,将数据块各分类中具有相关性的数据块进行标记;
步骤3、执行数据块放置策略,根据数据块和数据节点的分类,将各数据块按照性能需求的不同放置到不同分类的数据节点上;
步骤4、执行数据块放置策略时判断当前数据块选择放置的数据节点中是否有与它具有相关性的其他数据块,若有则在此数据节点的分类中重新执行步骤3,选择其他数据节点进行放置;
步骤5、完成当前数据块的放置,再次执行步骤3,直到所有的数据节点完成放置;
其中该步骤1包括:
步骤11、通过日志收集工具获取规定周期T内异构集群环境中各数据块的读操作次数M,根据平衡因子τ,上一周期的访问频率B_f(pre),得到当前周期的访问频率B_f:
步骤12、根据数据块各周期的访问频率计算出平均访问频率B_F(avg),以衡量数据块的热度,按照热度由高到低依次将数据块分为热点数据块和冷门数据块;
该步骤2包括:
步骤21、根据步骤A中获得的各数据块在不同周期的访问频率,利用数据块间的协方差cov进行相关性的分析:
其中n为周期数,i为当前周期,X和Y分别代表数据块B1和B2的在当前周期的访问频率,和分别代表n个周期内数据块B1和B2的平均访问频率;
步骤22、判断该协方差cov是否为为正数,若是则表明两个数据块访问频率的变化趋势一致,数据块B1和B2具有访问相关性,否则表明这数据块B1和B2不具有访问相关性。
2.一种基于异构Hadoop集群环境的数据块放置系统,其特征在于,包括:
模块1、根据数据块被访问的频率,将存储于异构集群环境中的数据块分为热点数据块、中热数据块、正常数据块和冷门数据块,根据异构集群环境中各数据节点的性能和预设的性能标准,将异构集群环境中数据节点按性能的不同进行分类;
模块2、进行数据块相关性分析,将数据块各分类中具有相关性的数据块进行标记;
模块3、执行数据块放置策略,根据数据块和数据节点的分类,将各数据块按照性能需求的不同放置到不同分类的数据节点上;
模块4、执行数据块放置策略时判断当前数据块选择放置的数据节点中是否有与它具有相关性的其他数据块,若有则在此数据节点的分类中重新执行模块3,选择其他数据节点进行放置;
模块5、完成当前数据块的放置,再次执行模块3,直到所有的数据节点完成放置;
其中该模块1包括:
模块11、通过日志收集工具获取规定周期T内异构集群环境中各数据块的读操作次数M,根据平衡因子τ,上一周期的访问频率B_f(pre),得到当前周期的访问频率B_f:
模块12、根据数据块各周期的访问频率计算出平均访问频率B_F(avg),以衡量数据块的热度,按照热度由高到低依次将数据块分为热点数据块和冷门数据块;
该模块2包括:
模块21、根据模块A中获得的各数据块在不同周期的访问频率,利用数据块间的协方差cov进行相关性的分析:
其中n为周期数,i为当前周期,X和Y分别代表数据块B1和B2的在当前周期的访问频率,和分别代表n个周期内数据块B1和B2的平均访问频率;
模块22、判断该协方差cov是否为为正数,若是则表明两个数据块访问频率的变化趋势一致,数据块B1和B2具有访问相关性,否则表明这数据块B1和B2不具有访问相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010185518.2/1.html,转载请声明来源钻瓜专利网。