[发明专利]一种基于MapReduce机制的数据密集型成本优化方法有效

申请号：	201310590839.0	申请日：	2013-11-21
公开（公告）号：	CN103593452B	公开（公告）日：	2017-06-13
发明（设计）人：	杨扬;孙莉莉;米振强	申请（专利权）人：	北京科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京市广友专利事务所有限责任公司11237	代理人：	张仲波
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于MapReduce机制的数据密集型计算成本优化方法，在数据的流行程度和访问情况动态变化的状态下，优化MapReduce任务的执行时间和执行成本。该方法包括提出云计算环境下基于MapReduce机制的成本计算模型；在该模型的基础上，根据负载中数据流行程度动态改变Map子任务的副本数目；对于访问次数较多，访问较频繁的热数据，通过增加其副本数目以减少文件抢夺和网络的带宽资源竞争，使其计算成本与计算时间达到最优；对于访问次数较少，访问较不频繁的冷数据，通过减少其副本数目以降低副本的创建与存储成本，使其计算成本与计算时间达到最优。利用本发明，云计算用户能够有效的减小资源使用成本，并能以更加高效的方式保证作业计算结果的可靠性与完整性。
搜索关键词：	一种基于 mapreduce 机制数据密集型成本优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于MapReduce机制的数据密集型计算成本优化方法，其特征在于：技术方案以成本为最终优化目标，包括负载采集与输入模块，数据流行度分类机制模块，数据副本数目决策算法模块，数据副本数目自动调节模块；模块自上至下依次设置，负载采集与输入模块输入连接到数据流行度分类机制模块，数据流行度分类机制模块将数据分为冷数据与热数据后，作为输入连接到数据副本数目决策算法模块，所述数据副本数目决策算法模块输出最佳数据备份数之后，将此备份数作为输入连接到数据副本数目自动调节模块；具体过程为：根据对负载中数据访问情况的分析，通过数据流行度分类机制，以同一时刻数据的访问次数作为参考指标，以Hadoop分布式存储系统系统默认数据备份数3为参考值，将数据划分为热数据和冷数据；其中，数据的访问次数大于或者等于3的为热数据，反之为冷数据；在此数据划分的基础上，由数据副本数目决策算法根据数据密集型计算成本模型计算数据作假副本数目；这种优化方法根据负载中数据流行程度动态改变Map子任务的副本数目；对于访问次数较多，访问较频繁的热数据，通过增加副本数目以减少文件抢夺和网络的带宽资源竞争，使计算成本与计算时间达到最优；对于访问次数较少，访问较不频繁的冷数据，通过减少副本数目以降低副本的创建与存储成本，使计算成本与计算时间达到最优；其中，数据副本数目决策算法模块建立了数据密集型计算成本模型，根据目前主流的云计算平台——亚马逊弹性计算云系统的分级定价模型与定价标准，将数据密集型计算总成本分为数据执行成本、数据存储成本与数据I/O读写成本三个部分，并按照公式(1)计算：Ctotal＝Cexe+Cstorage+Cio (1)公式(1)中，Ctotal代表计算总成本，Cexe代表数据执行成本，Cstorage代表数据存储成本，Cio代表数据I/O读写成本，Ctotal、Cexe、Cstorage分别按照公式(2)、(3)、(4)计算：Cexe＝uexe×Nm×Ttotal (2)Cstorage＝ustorage×Stotal×Ttotal (3)Cio=Cwrite+Cread=uio×Stotal×Rf4KB+uio×Stotal4KB---(4)]]>公式(2)(3)(4)中，uexe代表计算执行单价，uexe由云计算平台提供商提供，单位为美元每小时每个计算实例；Nm代表计算集群中的计算实例数量，单位为个；Ttotal代表计算总时间，单位为小时；ustorage代表数据存储单价，由云计算平台提供商提供，单位为美元每个月每GB；Stotal代表数据总量，包括原始数据及其数据备份，单位为GB；uio代表数据I/O读写单价，由云计算平台提供商提供，单位为美元每百万次读写请求；Rf代表数据备份数，单位为个；其中，公式(4)的数据I/O读写成本可分为I/O写成本Cwrite与I/O读成本Cread两部分；本发明中，成本计算模型将弹性块存储Elastic Block Store(EBS)作为数据默认存储方式，而EBS按照硬盘所使用的底层文件系统中的数据块大小收费；例如，在Linux系统中，ext3文件系统所使用的典型数据块大小为4KB；因此，假设每一个数据块在经历每一个Map和Reduce操作时都会被读一次，同时，每一个数据备份都会被写一次，那么数据的写成本Cwrite可表示为uio与总数据写请求次数的乘积，即Stotal×Rf/4KB；而数据的读成本Cread可表示为uio与总数据读请求次数的乘积，即Stotal/4KB；其中，数据副本数目决策算法模块建立数据密集型计算时间模型，并按照公式(5)计算：Ttotal＝Tcreate+Texe (5)公式(5)中，Tupload代表数据上传时间，单位为小时；Texe代表计算实例实际运行时间，单位为小时，Tupload、Texe分别按照公式(6)、(7)计算：Tcreate＝sf×(λ+μ×Rf) (6)Texe=texe/node/GB×sfNm---(7)]]>公式(6)(7)中，sf代表每个独立文件的大小，单位为GB；λ和μ代表读写能力指数，通过实验测得，单位为小时每GB；texe/node/GB代表计算实例的计算效率，单位为小时每实例每GB；其中，通过公式(1)(2)(3)(4)(5)，将数据创建成本转换为数据执行成本、数据存储成本与数据I/O读写成本，并按照公式(8)计算：Ccreate=Cexe+Cstorage+Cio=uexe×Nm×Tcreate+ustorage×Stotal×Tcreate+uio×Stotal×Rf4KB---(8)]]>公式(8)中，Ccreate代表数据创建成本，单位为美元；Tcreate代表数据创建时间，单位为小时；其中，数据创建成本与总成本的关系为：总成本计算中所需要的总时间包括了数据创建过程中所消耗的创建时间Tcreate；在数据创建过程中，计算节点(实例)仍处于运行状态，因此进一步产生数据执行成本，以及数据的存储成本；此外，创建数据的过程即数据的写入过程，包括了Rf份数据的写入成本；其中，以成本为最终优化目标，建立密集型计算总成本与数据副本数目之间的关系，通过成本模型确定数据副本数目，从而达到成本最优化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京科技大学，未经北京科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310590839.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于MapReduce机制的数据密集型成本优化方法有效

专利文献下载