[发明专利]一种基于MapReduce机制的数据密集型成本优化方法有效
申请号: | 201310590839.0 | 申请日: | 2013-11-21 |
公开(公告)号: | CN103593452B | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 杨扬;孙莉莉;米振强 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市广友专利事务所有限责任公司11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于MapReduce机制的数据密集型计算成本优化方法,在数据的流行程度和访问情况动态变化的状态下,优化MapReduce任务的执行时间和执行成本。该方法包括提出云计算环境下基于MapReduce机制的成本计算模型;在该模型的基础上,根据负载中数据流行程度动态改变Map子任务的副本数目;对于访问次数较多,访问较频繁的热数据,通过增加其副本数目以减少文件抢夺和网络的带宽资源竞争,使其计算成本与计算时间达到最优;对于访问次数较少,访问较不频繁的冷数据,通过减少其副本数目以降低副本的创建与存储成本,使其计算成本与计算时间达到最优。利用本发明,云计算用户能够有效的减小资源使用成本,并能以更加高效的方式保证作业计算结果的可靠性与完整性。 | ||
搜索关键词: | 一种 基于 mapreduce 机制 数据 密集型 成本 优化 方法 | ||
【主权项】:
一种基于MapReduce机制的数据密集型计算成本优化方法,其特征在于:技术方案以成本为最终优化目标,包括负载采集与输入模块,数据流行度分类机制模块,数据副本数目决策算法模块,数据副本数目自动调节模块;模块自上至下依次设置,负载采集与输入模块输入连接到数据流行度分类机制模块,数据流行度分类机制模块将数据分为冷数据与热数据后,作为输入连接到数据副本数目决策算法模块,所述数据副本数目决策算法模块输出最佳数据备份数之后,将此备份数作为输入连接到数据副本数目自动调节模块;具体过程为:根据对负载中数据访问情况的分析,通过数据流行度分类机制,以同一时刻数据的访问次数作为参考指标,以Hadoop分布式存储系统系统默认数据备份数3为参考值,将数据划分为热数据和冷数据;其中,数据的访问次数大于或者等于3的为热数据,反之为冷数据;在此数据划分的基础上,由数据副本数目决策算法根据数据密集型计算成本模型计算数据作假副本数目;这种优化方法根据负载中数据流行程度动态改变Map子任务的副本数目;对于访问次数较多,访问较频繁的热数据,通过增加副本数目以减少文件抢夺和网络的带宽资源竞争,使计算成本与计算时间达到最优;对于访问次数较少,访问较不频繁的冷数据,通过减少副本数目以降低副本的创建与存储成本,使计算成本与计算时间达到最优;其中,数据副本数目决策算法模块建立了数据密集型计算成本模型,根据目前主流的云计算平台——亚马逊弹性计算云系统的分级定价模型与定价标准,将数据密集型计算总成本分为数据执行成本、数据存储成本与数据I/O读写成本三个部分,并按照公式(1)计算:Ctotal=Cexe+Cstorage+Cio (1)公式(1)中,Ctotal代表计算总成本,Cexe代表数据执行成本,Cstorage代表数据存储成本,Cio代表数据I/O读写成本,Ctotal、Cexe、Cstorage分别按照公式(2)、(3)、(4)计算:Cexe=uexe×Nm×Ttotal (2)Cstorage=ustorage×Stotal×Ttotal (3)Cio=Cwrite+Cread=uio×Stotal×Rf4KB+uio×Stotal4KB---(4)]]>公式(2)(3)(4)中,uexe代表计算执行单价,uexe由云计算平台提供商提供,单位为美元每小时每个计算实例;Nm代表计算集群中的计算实例数量,单位为个;Ttotal代表计算总时间,单位为小时;ustorage代表数据存储单价,由云计算平台提供商提供,单位为美元每个月每GB;Stotal代表数据总量,包括原始数据及其数据备份,单位为GB;uio代表数据I/O读写单价,由云计算平台提供商提供,单位为美元每百万次读写请求;Rf代表数据备份数,单位为个;其中,公式(4)的数据I/O读写成本可分为I/O写成本Cwrite与I/O读成本Cread两部分;本发明中,成本计算模型将弹性块存储Elastic Block Store(EBS)作为数据默认存储方式,而EBS按照硬盘所使用的底层文件系统中的数据块大小收费;例如,在Linux系统中,ext3文件系统所使用的典型数据块大小为4KB;因此,假设每一个数据块在经历每一个Map和Reduce操作时都会被读一次,同时,每一个数据备份都会被写一次,那么数据的写成本Cwrite可表示为uio与总数据写请求次数的乘积,即Stotal×Rf/4KB;而数据的读成本Cread可表示为uio与总数据读请求次数的乘积,即Stotal/4KB;其中,数据副本数目决策算法模块建立数据密集型计算时间模型,并按照公式(5)计算:Ttotal=Tcreate+Texe (5)公式(5)中,Tupload代表数据上传时间,单位为小时;Texe代表计算实例实际运行时间,单位为小时,Tupload、Texe分别按照公式(6)、(7)计算:Tcreate=sf×(λ+μ×Rf) (6)Texe=texe/node/GB×sfNm---(7)]]>公式(6)(7)中,sf代表每个独立文件的大小,单位为GB;λ和μ代表读写能力指数,通过实验测得,单位为小时每GB;texe/node/GB代表计算实例的计算效率,单位为小时每实例每GB;其中,通过公式(1)(2)(3)(4)(5),将数据创建成本转换为数据执行成本、数据存储成本与数据I/O读写成本,并按照公式(8)计算:Ccreate=Cexe+Cstorage+Cio=uexe×Nm×Tcreate+ustorage×Stotal×Tcreate+uio×Stotal×Rf4KB---(8)]]>公式(8)中,Ccreate代表数据创建成本,单位为美元;Tcreate代表数据创建时间,单位为小时;其中,数据创建成本与总成本的关系为:总成本计算中所需要的总时间包括了数据创建过程中所消耗的创建时间Tcreate;在数据创建过程中,计算节点(实例)仍处于运行状态,因此进一步产生数据执行成本,以及数据的存储成本;此外,创建数据的过程即数据的写入过程,包括了Rf份数据的写入成本;其中,以成本为最终优化目标,建立密集型计算总成本与数据副本数目之间的关系,通过成本模型确定数据副本数目,从而达到成本最优化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310590839.0/,转载请声明来源钻瓜专利网。
- 上一篇:文件推荐方法和文件推荐装置
- 下一篇:一种数据库资源回收方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置