[发明专利]一种基于成本效益的storm任务调度方法在审
申请号: | 202010290723.5 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111522637A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 李鸿健;戴红希;刘曾琰;段小林;邹洋 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/455;G06F9/50 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 成本 效益 storm 任务 调度 方法 | ||
本发明涉及大数据流处理领域,特别涉及一种基于成本效益的storm任务调度方法,包括基于Storm流处理框架,构建出基于流处理的成本效益模型;判断成本效益模型的数据库中是否有提交任务的成本信息,若有则获取该任务所需要的资源需求,若当前任务的资源需求超载,则调整worker阈值,并重新提交任务;否则根据数据库中的任务优先级序列表,以成本最小化的方式分配任务;若没有该任务的成本信息,则通过监控脚本和通信探针来获取对应的数据,通过成本效益的模型,来计算集群中各个节点的总成本信息,再将其写入到成本效益模型数据库;本发明将网络绑定作业的节点间通信最小化,从而提高了系统的性能以及系统集群的总成本效益。
技术领域
本发明涉及大数据流处理领域,特别涉及一种基于成本效益的storm任务调度方法。
背景技术
为了满足大数据的速度需求,流处理的技术应运而生—一种支持利用动态数据进行分析的范例——由于数据的连续生成和及时处理的需要而迅速出现;一种新的内存处理的技术,它不是将一次性查询作为一系列的批处理作业应用于静态数据,而是采用一次到达的处理原理,以实现对易失性数据流的低处理延迟,以及大规模并行架构,来支持分布式环境中的实时数据分析。在流数据处理方面,大数据开源流式处理框架Spark Streaming、Flink、Gearpump以及Storm等都是最常见的选择。考虑到云提供的按需、庞大且可扩展的计算和存储资源,这些大数据处理框架在公共云上安装和部署变得越来越受欢迎。
云计算外包模式使每个有信用卡的人都能在几分钟内将任意复杂的数据处理工作部署到成千上百个计算节点上。由于这些任务是可以不同类型的,例如:CPU密集型、内存密集型以及网络密集型等。因此,在云上部署大数据数据处理框架的集群中,调度这些大数据的任务可能会较为困难。此外,在云上可用的各种类型的虚拟机(VMs)实例使得生成成本效益的调度程序就变得困难。因此,作业的性能在很大程度上取决于执行作业所依据的VM类型(如图4所示,Amazon AWS中每种类型虚拟机的详细配置以及类似的定价),能保证良好性能的同时具有成本效益。将其在大数据流处理框架Storm上进行研究也是很有价值的。
Storm是一个实时的分布式的流式计算系统,它可以可靠地处理无限数据流,并对内存中的动态数据进行实时流计算。Storm提供了与主流队列和数据库技术的无缝集成,使得在一组分布式资源上处理无限制的快速数据变得更加容易。在物理逻辑上,如图1所示,Storm集群是由其主节点(Nimbus:负责资源的分配和任务调度)和从节点(Supervisor:负责接收来自nimbus分配的任务,启动和管理自己的worker进程)组成的,它们是通过Zookeeper(负责主从节点之间的通信,监控各个节点之间的状态)来进行通信。一旦用户提交网络拓扑(Topology:计算拓扑,运行实时应用程序的名称)信息,Nimbus就会根据其任务信息,将任务分发给各个节点下的Supervisor来进行处理。在任务调度方面,Storm中的任务调度算法的目标是将任务分配给Worker(即进程)节点,每一个worker进程都会执行一个具体的Topology,Worker进程中执行的的线程就叫作执行器(Executor);一个运行的Topology就是由一个或多个worker节点来完成这些具体的业务逻辑;其默认的运行方式,为轮询调度策略,会均匀的将任务放置到各个节点上进行计算和处理;这样就会存在节点资源利用不足,通信成本增加以及能源使用过度等问题。
发明内容
为了能够在最大限度的利用虚拟机资源和提高作业性能的情况下,同时能够降低虚拟机的成本,本发明提出一种基于成本效益的storm任务调度方法,具体包括以下步骤:
S1、基于Storm流处理框架,构建出基于流处理的成本效益模型;
S2、在提交topology任务后,若成本效益模型的数据库中有该任务的成本信息,则获取当前topology所需要的资源需求,若当前任务的资源需求超载,则调整worker阈值,并重新提交任务;否则根据数据库中的任务优先级序列表,以成本最小化的方式分配任务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010290723.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基坑边坡的柔性面层装配式土钉墙结构及其施工方法
- 下一篇:外球面滚针轴承