[发明专利]一种面向Spark Streaming平台的数据接收通道动态分配方法有效
申请号: | 201711247686.4 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108037998B | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 梁毅;丁振兴;李硕;丁治明 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种面向Spark Streaming平台的数据接收通道动态分配方法,分配方法主要分为六个步骤:初始化、数据接收通道接收能力评估、基于马尔可夫链模型的流式数据到达速率变化状态预测、数据接收通道动态分配决策、数据接收通道组件回收与追增和回溯。本方法依据Spark Streaming应用的数据接收能力及流式数据到达速率的变化预测,为流式应用在线自动化地增加和减少数据通道的分配部署,确保数据处理的时效性以及提升通道组件资源和批处理引擎计算能力的利用率。 | ||
搜索关键词: | 一种 面向 spark streaming 平台 数据 接收 通道 动态分配 方法 | ||
【主权项】:
1.一种面向Spark Streaming平台的数据接收通道动态分配方法,其特征在于:包括以下步骤:(1)初始化Spark Streaming应用启动后,利用平台既有组件收集当前Spark Streaming应用对应的数据源编号inputstream,令Spark Streaming应用当前分配的数据接收通道集合C,C={c1,c2,…cn},利用平台既有数据接收通道管理组件收集应用数据接收通道集合C信息;(2)数据接收通道接收能力评估2.1)令当前时刻为i,应用的数据接收通道缓存区空间使用量集合Ei表示为
其中,n表示应用当前分配的数据接收通道总数,
表示应用分配的第j个数据接收通道在i时刻的缓存区空间使用量;2.2)对于每一个数据接收通道cj,cj∈C,利用公式(1)计算其接收能力,其中,et表示数据缓存区空间总量,
2.3)综合当前应用已分配的所有数据接收通道的接收能力,利用公式(2)计算当前时刻i应用的数据接收能力,
2.4)若εi>Ulimit或εi<Llimit,则执行步骤(3);否则,执行步骤(6);(3)基于马尔可夫链模型的流式数据到达速率变化状态预测3.1)令当前时刻为i,流式数据到达速率历史记录集R表示为R={ri‑1,ri‑2,ri‑3…ri‑m},3.2)定义数据到达速率变化的状态空间K,K={k1,k2,k3},其中,k1为增强状态、k2为持平状态,k3为减弱状态,对于任一rl∈R,若rl‑1<rl,则l时刻数据到达速率变化状态为k1;若rl‑1=rl,则l时刻数据到达速率变化状态为k2;若rl‑1>rl,则l时刻数据到达速率变化状态为k3,3.3)状态转移概率计算,3.3.1)令i时刻流式数据到达速率变化状态历史记录集PSi表示为PSi={si‑1,si‑2…,si‑m},对于任一sj∈PSi,依据步骤3.2)中的方法计算其值;3.3.2)计算状态转移判定因子,状态转移判定因子表示相邻时刻点间,Spark Streaming应用数据到达速率变化状态的转移,令
为k时刻应用数据到达速率变化状态转移判定因子,其中,sk∈PSi,j,l∈{1,2,3},
的计算方法为,若sk=kj且sk+1=kl,则
否则,
3.3.3)统计状态转移计数![]()
表示在PSi中,满足起始状态为kj且下一时刻的目标状态为kl的状态转移总数,统计方法如公式(3),
3.3.4)根据公式(4)计算状态转移概率;
3.4)根据步骤3.3)得到的状态转移概率构建状态转移矩阵Pi;
3.5)依据步骤3.2)计算当前时刻i的数据到达速率变化状态si,若si=kl,kl∈K,则遍历状态转移矩阵Pi中起始状态为kl的相应行,选择其中取值最大的状态转移概率
设置i+1时刻的数据到达速率变化状态si+1=kd,(4)数据接收通道动态分配决策4.1)令θ为通道动态分配决策因子,若εi>Ulimit且si+1=k3,转至步骤4.2);若εi<Llimit且si+1=k1,转至步骤4.3);其余情况转至步骤(6),4.2)设置θ←‑1,表示回收一个数据接收通道,4.3)设置θ←1,表示追增一个数据接收通道,(5)数据接收通道组件回收与追增5.1)判断动态分配决策因子,若θ=‑1,则转至步骤5.2);若θ=1,则转至步骤5.3);5.2)数据接收通道组件回收;5.2.1)在Spark Streaming应用当前分配的数据接收通道集合C中随机选取一个数据接收通道cj;5.2.2)在数据接收通道管理组件中,撤销该数据接收通道的注册信息,并将该接收通道从应用当前分配的数据接收通道集合C中删除;5.2.3)停止该数据接收通道的数据接收功能;5.3)数据接收通道组件追增;5.3.1)将新追增的数据接收通道对应的数据源编号设置为inputstream,并将该数据接收通道加入应用当前分配的数据接收通道集合C中;5.3.2)向Spark Streaming既有的资源管理器申请数据接收通道运行资源;用于新增数据接收通道的启动;5.3.3)在分配的运行资源所在的节点上启动新增数据接收通道组件;5.3.4)启动新增数据接收通道的数据接收功能;(6)回溯:一个动态分配周期结束后,判断应用程序是否结束,是则转至步骤(7),否则转至步骤(2);(7)结束:终止对数据接收通道动态分配功能。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711247686.4/,转载请声明来源钻瓜专利网。
- 上一篇:胀管操作装置及具有其的胀管机
- 下一篇:一种锂硫电池正极材料的制备方法