[发明专利]基于最小生成树聚类改进遗传算法的Hadoop任务调度方法有效
申请号: | 201710432104.3 | 申请日: | 2017-06-09 |
公开(公告)号: | CN107273209B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 杨新武;冯凯;王巧慧 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48;G06N3/00 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最小 生成 树聚类 改进 遗传 算法 hadoop 任务 调度 方法 | ||
本发明公开了基于最小生成树聚类改进遗传算法的Hadoop任务调度方法,包括待调度任务TaskQueue的建立,任务预测执行时间矩阵ETC的建立,任务本地性矩阵LTC的建立,机器负载列表loadList的建立;进行个体编码、初始化数据,并设定参数;进行种群初始化;对种群内的个体进行解码得到表现型空间,计算表现型空间个体的任务预测执行时间、本地性任务个数和机器负载,然后根据这三个值计算种群内个体的适应度值;在表现型空间对种群进行最小生成树聚类;选择种群内个体参加遗传操作;对选择的个体进行交叉和变异操作;重复迭代直到得到最佳个体。本发明采用改进的遗传算法作为优化算法,同时以任务预测执行时间、本地性任务个数、机器负载三个因素作为参数进行优化求解。
技术领域
本发明属于Hadoop平台的任务调度问题,实际上也是任务和TaskTracker之间的组合优化问题。首先通过引入MinJob和SinglePercent两个参数以及结合当前集群中可用的slot数量构建调度模型,然后将预测执行时间、本地任务个数和机器负载作为优化目标,最后采用基于聚类改进的遗传算法对其进行优化,是一种使用计算技术、遗传算法、聚类分析实现对大数据处理平台Hadoop任务调度的方式。
背景技术
由于现在的衣食住行和工作等越来越依赖于互联网,导致了互联网中数据的爆发式增长,而这些数据不仅仅是量级上的增长,在这些数据的背后隐藏着很多的信息,这些信息往往对某个企业乃至某个行业来说都是至关重要的。在这样的背景下开源大数据平台Hadoop成为了使用最广泛的大数据处理平台之一。
Hadoop平台中最关键的的一个环节之一便是根据任务对资源的需求控制任务执行顺序和资源使用的调度环节。这个环节直接关系到Hadoop平台的整体性能和系统资源的利用情况。Hadoop官方现在有三种调度算法FIFO、Capacity和Fair,但是FIFO只适合于单用户和集群负载比较小的情况,Capacity和Fair虽然是多用户的但都是根据配置文件来控制资源的资源使用,这需要配置大量的参数,这无疑加大了管理的难度并且在一个有几百台机器的异构集群中几乎是不可能的。
针对Hadoop现有调度算法的缺点,很多研究学者都对其进行了研究和改进并提出了自己的调度算法。Matei Zaharia等人提出了延迟调度算法,在这种算法中,当有slave节点请求分配Map任务时,如果无法满足节点的本地性,则先让Map任务等待D1时长,希望在这段时间以内有满足Map任务本地性的slave节点请求任务。但是这样在集群负载很大的时候容易造成某个任务等待时间过长。Ghods等人提出了Dominant Resouce Fairness(DRF),DRF算法意在将资源公平地分给不同的用户,但这种算法不适用于异构集群。Rasooli等人提出了COSHH,他针对不同类型的作业对资源的需求不同提出了这种算法,但是这种算法开销很大,当集群的负载变轻时,并不适用。Jian Tan等人提出了一种调度Reduce任务的策略,在该算法中,根据Map任务的进度计算Reduce任务的调度时机。但是该算法中没有考虑Map任务的执行时间问题。Xiaotong Zhang等人提出了改进的SRT算法,该算法根据Map任务的最短食欲时间来调度任务。但该算法容易导致系统资源得不到充分的利用。国内学者杨倩茹等人提出了一种引入内存平衡的Hadoop平台作业调度算法FMscheduler,在调度过程中加入了内存比较机制、调整作业公平权重计算方法以及作业预留机制。朱宗斌等人提出了一种基于自适应调整交叉和变异操作的概率的遗传算法的Hadoop调度算法,但是他对任务本身只考虑了任务执行时间这一个约束条件并且并没有对遗传算子进行改进。徐肖等提出了一种基于分段编码遗传算法的Hadoop调度算法,但是他的适应度函数也只考虑了任务执行时间这一个约束条件。
因此,本发明通过引入了2个参数:一次最少处理job个数MinJob和当一个大任务独占资源时最多可占用的资源比例SinglePercent并结合当前集群中可用的slot数目来建立Hadoop任务调度模型,并以任务预测执行时间、本地任务个数以及机器负载作为优化目标,使用基于最小生成树聚类改进的遗传算法(CGA)来求解模型。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710432104.3/2.html,转载请声明来源钻瓜专利网。