[发明专利]一种基于大数据处理框架的批作业执行时间预测方法有效
申请号: | 201710027302.1 | 申请日: | 2017-01-12 |
公开(公告)号: | CN106897199B | 公开(公告)日: | 2020-03-10 |
发明(设计)人: | 张霄宏;赵文涛;智慧来;吴岩;曾艳阳;苗煜飞 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454003 河南省焦作市高新*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据处理 框架 作业 执行时间 预测 方法 | ||
本发明提出一种基于大数据处理框架共有特征的批作业执行时间预测方法,该方法可预测一批大数据作业的执行时间。根据预测结果,制定合理的调度策略,在生产性高优先级作业到来前,充分利用集群的计算资源在有限时间内执行尽可能多的作业,进一步提高集群的资源利用率和吞吐量。
技术领域
本发明涉及一种作业执行时间预测方法,具体地,涉及一种基于大数据处理框架的批作业执行时间预测方法,属于大数据技术领域。
背景技术
随着计算机技术和互联网技术的迅速发展,数据呈爆炸式疯狂增长。为了应对海量数据处理压力,先后出现了MapReduce、Dryad、Spark等多种大数据处理框架。这些框架的基本原理都是首先将海量数据划分成小块,然后分布到不同的节点,并行处理。在实际应用中,首先需要将框架部署到大规模集群上,依托集群提供的计算和存储资源进行大数据处理。有学者的研究表明,集群中的负载可以分成两类:非周期性作业和周期性作业。非周期性作业通常是一些实验负载,规模大小不一,运行数秒数分钟都有可能。而周期性作业往往是规模较大的生产负载,与公司的核心业务密切相关,一旦提交,必须立即执行。但是,在资源竞争激烈的大数据环境,保证及时执行高优先级作业极具挑战。
通常,为了保证及时执行生产作业,由人工估算等待队列中已有作业的执行时间,并根据估算结果在生产作业到来之前拒绝接收新作业,以便给已有作业预留足够多的执行时间。然而,由于人工估算误差较大,集群往往提前处理处理完这些作业并进入空转状态。由于生产作业与核心业务密切相关,现有的策略必须保证生产作业到来时等待队列为空,如此生产作业一旦提交就可立即执行。为做到这一点,现有策略宁可让集群进入空转状态,也不愿尽可能多执行一些作业,从而降低了资源利用率和系统吞吐量。如果能获得等待队列中所有作业较准确的执行时间,集群便可合理的安排作业调度,在生产作业到达前处理尽可能多的作业,从而提高资源的利用率和系统的吞吐量。
通过分析现有大数据处理过程的特征,发现作业的执行过程都被划分成多个不同的阶段,每个阶段包含若干任务并执行特定的处理操作,且只有在前一阶段所有任务执行结束后才能进入后一阶段。阶段之间存在一定的数据依赖关系,即前一阶段的输出数据是后一阶段的输入数据。只要作业类型相同,划分出的阶段和阶段中任务执行的操作也相同,差别只在每个任务要处理的数据规模。因此,在数据规模一定的前提下,如果能获取每个阶段中任务的执行时间、集群可用的资源信息等因素,便可预测单个作业的完成时间,进而预测等待队列中所有作业的执行时间。
发明内容
为了解决现有技术中存在的种种问题,本发明提出了一种基于大数据处理框架的批作业执行时间预测方法。该方法包括以下步骤:
一、为复杂作业创建作业模型:在作业模型中指明被派生的作业类型及执行阶段以及每个作业执行阶段的任务数量、输入数据信息;
二、分析历史数据,获取各类作业在多种准确度下各种类任务的执行时间:利用概率统计分析各类作业中每种任务在不同类型节点上的执行时间,获取每种任务在不同概率下的统计执行时间;
三、预测时间片的可用时间:如果时间片处于空闲状态,按1)预测可用时间;如果时间片处于忙状态,按照2)和3)预测可用时间;
1)Sn,i表示节点n上的第i个时间片;表示Sn,i的可用时间,即从时刻起,时间片可用;值为-1表示Sn,i当前处于空闲状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710027302.1/2.html,转载请声明来源钻瓜专利网。