[发明专利]一种HadoopYarn网络带宽资源调度、隔离方法和装置在审
申请号: | 201610404404.6 | 申请日: | 2016-06-08 |
公开(公告)号: | CN107483364A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 徐晓燕;樊鑫鑫;臧天宁;李高超;周渊 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | H04L12/917 | 分类号: | H04L12/917 |
代理公司: | 工业和信息化部电子专利中心11010 | 代理人: | 田卫平 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hadoopyarn 网络带宽 资源 调度 隔离 方法 装置 | ||
技术领域
本发明涉及大数据计算技术领域,特别是涉及一种Hadoop Yarn网络带宽资源调度、隔离方法和装置。
背景技术
Yarn(Yet Another Resource Negotiator,另一种资源协调者)为通用资源管理系统,负责Yarn集群的资源分配和任务调度,Yarn主要包括3个组件:RM(Resource Manager,资源管理器),NM(Node Manager,节点管理器)和AM(Application Master,应用程序管理器)。
在Yarn中,资源的表示单位是容器(Container),Container是从MRv1中分解出来的一部分。Container是Yarn中资源的抽象,封装了某个节点上一定量的运算资源和存储资源,如CPU和内存。Container是动态资源的划分单位,AM向RM申请资源,RM中的调度器为AM分配Container,AM接收到Container之后,会通知NM启动Container执行任务。具体的,每个作业(job)包含多个任务(task),由AM为每个task申请资源,RM负责为每个task分配资源,NM负责运行和管理Container,每个task由一个Container运行。
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)包括一个namenode和多个datanode。HDFS存储了大量数据,提供客户端(client)和应用程序(application)的数据流访问。在HDFS中,较大的文件被分割成等大的数据块(block),存储在datanode上。为确保可靠服务,防止datanode失效,提供副本策略,将同一数据块的副本(默认有3个副本)放在不同的datanode中保存。Namenode保存文件和目录的元数据(metadata)和文件的block 的位置信息。在HDFS中,所有的数据传输通过TCP/IP协议栈执行。一个block的传输需要通过2个pipes:一个TCP/IP pipe,位于container和datanode之间;另一个是disk io pipe,在datanode和内部block要存储的磁盘之间。
在大数据领域,Yarn需要成为一个通用的资源管理系统,建立一个全方位的资源管控网,管理集群中的各种资源,包括内存、CPU、网络带宽、磁盘等等,但是目前,Yarn只支持对内存和CPU的管理,不支持对网络带宽的管理;而且,由于Yarn集群中仍然存在多种资源不受Yarn管理,多租户多任务共享的Yarn集群中,这些不被管理的资源的存在会影响集群的健壮性:共享资源的不共享占用;遭受拒绝服务DoS(Denial of Service)攻击,比如恶意用户运行应用--占用尽可能少的受限资源和尽可能多的不受限资源,使过度使用的资源成为集群的瓶颈。基于以上考虑,本领域需要在Yarn中加入对网络带宽资源的管理。
发明内容
本发明提供一种Hadoop Yarn网络带宽资源调度、隔离方法和装置,用以调度和隔离Yarn中各个任务的网络带宽资源,避免任务之间因带宽竞争影响性能。
针对上述技术问题,本发明是通过以下技术方案来解决的。
本发明提供了一种Hadoop Yarn网络带宽资源调度方法,包括:RM接收AM发送的作业资源请求;其中,所述工作资源请求包括:在作业中,每个任务的网络带宽资源需求量、CPU资源需求量和内存资源需求量;所述RM根据每个所述任务的网络带宽需求量、CPU资源需求量和内存资源需求量,采用预设的公平调度算法,为每个所述任务对应分配容器,并将每个所述任务对应的容器传递给所述AM;其中,在每个所述容器中封装有对应任务的网络带宽分配量、CPU资源分配量和内存资源分配量;所述AM针对每个所述任务,向所述AM所在节点中的NM发送运行请求,使所述NM基于每个所述任务对应 的容器运行任务。
其中,在RM接收AM发送的作业资源请求之后,还包括:所述RM从所述作业资源请求的被预先扩展的Resource类中,提取每个任务的网络带宽资源需求量、CPU资源需求量和内存资源需求量;其中,预先扩展Resource类包括:在Resource类中添加用于表示网络带宽资源的变量以及用于计算每种任务的网络带宽资源需求量的函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610404404.6/2.html,转载请声明来源钻瓜专利网。