[发明专利]基于正交实验改进的谱聚类遗传算法的Hadoop任务调度方法有效
申请号: | 201710448520.2 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107273197B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 杨新武;王碧瑾;王巧慧 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06N3/12 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正交 实验 改进 谱聚类 遗传 算法 hadoop 任务 调度 方法 | ||
本发明公开了基于正交实验改进的谱聚类遗传算法的Hadoop任务调度方法,包括基于正交实验改进的谱聚类遗传算法的过程;进行个体编码、初始化数据,并设定参数;进行正交种群初始化;对种群内的个体进行解码得到表现型空间,计算表现型空间个体的任务预测执行时间、本地性任务个数和机器负载,然后根据这三个值计算种群内个体的适应度值;在表现型空间对种群进行谱聚类;选择种群内个体参加遗传操作;对选择的个体进行正交交叉和变异操作;重复迭代直到得到最佳个体。本发明采用改进的遗传算法作为优化算法,同时以任务预测执行时间、本地性任务个数、机器负载三个因素作为参数进行优化求解。
技术领域
本发明属于Hadoop平台的任务调度问题,特别是一种基于正交实验改进的谱聚类遗传算法的、新的Hadoop平台任务调度方法。
背景技术
由于现在的衣食住行和工作等越来越依赖于互联网,导致了互联网中数据的爆发式增长,而这些数据不仅仅是量级上的增长,在这些数据的背后隐藏着很多的信息,这些信息往往对某个企业乃至某个行业来说都是至关重要的。在这样的背景下开源大数据平台Hadoop成为了使用最广泛的大数据处理平台之一。
Hadoop平台中最关键的的一个环节便是根据任务对资源的需求控制任务执行顺序和资源使用的调度环节。这个环节直接关系到Hadoop平台的整体性能和系统资源的利用情况。Hadoop官方现在有三种调度算法FIFO、Capacity和Fair,但是FIFO只适合于单用户和集群负载比较小的情况,Capacity和Fair虽然是多用户的但都是根据配置文件来控制资源的资源使用,这需要配置大量的参数,这无疑加大了管理的难度并且在一个有几百台机器的异构集群中几乎是不可能的。其实Hadoop的任务调度过程是任务和TaskTracker的组合优化问题,而遗传算法适合于解决组合优化问题,所以有专家学者开始使用遗传算法解决Hadoop任务调度问题。朱宗斌等人提出了一种基于自适应调整交叉和变异操作的概率的遗传算法的Hadoop调度算法,但是他对任务本身只考虑了任务执行时间这一个约束条件并且并没有对遗传算子进行改进。徐肖等提出了一种基于分段编码遗传算法的Hadoop调度算法,但是他的适应度函数也只考虑了任务执行时间这一个约束条件。熊聪聪等人在云计算的背景下提出了一种以遗传算法为基础的调度模型,但是没有具体你描述如何构建编码所用的任务列表;李仲晓提出了一种基于遗传算法的Hadoop任务调度模型,但是其模型具有编码长度不能自适应等缺点,并且标准遗传算法有着搜索效率低和早熟收敛的缺点。
发明内容
本发明首先通过引入了2个参数:一次最少处理job个数MinJob和当一个大任务独占资源时最多可占用的资源比例SinglePercent并结合当前集群中可用的slot数目来建立Hadoop任务调度模型,并以任务预测执行时间、本地任务个数以及机器负载作为优化目标;然后使用正交实验改进谱聚类遗传算法提出基于正交实验改进的谱聚类遗传算法SOXGASC,并使用SOXGASC优化建立的Hadoop任务调度模型。
本发明首先是通过正交实验来改进谱聚类遗传算法,旨在使得初始个体更叫均匀地分布在解空间中,整个算法从更高水平开始收敛间接加快收敛速度,并通过正交交叉减少无效交叉。并采用基于正交实验改进的谱聚类遗传算法开发一种配置项很少、性能更好的Hadoop任务调度方法。
1.基于正交实验改进的谱聚类遗传算法(SOXGASC)
设种群规模为popsize,交叉概率为pC,变异概率为pm,聚类个数为k,则基于正交实验改进的谱聚类遗传算法(SOXGASC)的步骤如下
Step1.种群初始化,采用正交种群初始化产生初始种群initPop,并使得pop=initPop,gen=1。
Step2.判断是否满足停止进化的条件,如果不满足执行Step3,如果满足,执行Step7。
Step3.对pop进行谱聚类,并保存聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710448520.2/2.html,转载请声明来源钻瓜专利网。