[发明专利]基于算子作用域动态感知的弹性资源分配方法及装置在审
申请号: | 202210431141.3 | 申请日: | 2022-04-22 |
公开(公告)号: | CN115016928A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 刘帆;朱蔚林;木伟民;张云;李名扬;王伟平 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 算子 作用 动态 感知 弹性 资源 分配 方法 装置 | ||
本发明公开了一种基于算子作用域动态感知的弹性资源分配方法及装置。所述方法包括:构建数据流处理应用的有向无环图,所述有向无环图中的节点表示处理数据流的算子,边表示数据流;根据算子的静态筛选率指标和动态筛选率统计指标来评估上游算子的作用域,自适应地将有向无环图进行分区。预测每个分区未来一段时间的负载;针对每个所述分区中的各算子,基于所述负载生成相应数量的算子实例,以对所述接收数据进行实时处理,满足服务质量要求。本发明以分区为单位规划算子的并行性,从而保证端到端处理延迟,提升资源利用率。
技术领域
本发明涉及数据流处理领域,具体为一种基于算子作用域动态感知的弹性资源分配方法及装置。
背景技术
在分布式流处理系统(以下简称DSPSs)中,数据流处理应用(以下简称DSPAs)通常建模成有向无环图(DAG),图中的点表示处理数据流的算子,边表示数据流。上游算子处理完数据流后发送给下游算子。上游算子的负载和并行度发生变化,下游算子的负载和并行度也很有可能会发生变化。
原方法在进行资源分配时只考虑DAG图中的单个算子或者算子之间的静态相关性,忽略了DAG图中算子之间的动态相关性,导致资源分配滞后、不准确,增加数据处理延迟。为了解决该问题,利用算子的动态作用域评估算子之间的动态相关性,实现弹性资源分配。
发明内容
针对上述问题,本发明提供一种基于算子作用域动态感知的弹性资源分配方法及装置,所述方法以分区为单位规划算子的并行性,从而保证端到端处理延迟,提升资源利用率。
为实现上述目的,本发明采用如下技术方案:
一种基于算子作用域动态感知的弹性资源分配方法,其步骤包括:
构建数据流处理应用的有向无环图,所述有向无环图中的节点表示处理数据流的算子,边表示数据流;
根据算子的静态筛选率指标和动态筛选率统计指标来评估上游算子的作用域,自适应地将有向无环图进行分区。
预测每个分区未来一段时间的负载;
针对每个所述分区中的各算子,基于所述负载生成相应数量的算子实例,以对所述接收数据进行实时处理,满足服务质量要求。
进一步地,所述根据算子的静态筛选率指标和动态筛选率统计指标来评估上游算子的作用域,自适应地将DAG图进行分区,包括:
根据算子的处理逻辑进行理论上输出速率与总输入速率的比值推断,得到静态筛选率;
收集动态筛选率指标;
在启动阶段,根据所述静态筛选率将算子分成初始稳定算子集合与初始不稳定算子集合;
将初始不稳定算子集合中算子的下游算子的所有输入边截断,并将所有相连的子图聚合,得到所述有向无环图的初始分区;
在运行阶段,根据所述动态筛选率指标更新稳定集合和不稳定集合,以再次进行所述有向无环图的分区。
进一步地,所述在线预测每个分区未来一段时间的负载,包括:
构建训练数据集,所述训练数据集为每个分区的历史输入数据负载;
基于所述训练数据集对元学习模型进行学习,得到每一分区的在线负载预测模型,其中,所述元学习模型包括:MLP基础学习器和LSTM元学习器;
将所述历史负载输入在线负载预测模型,得到所述未来一段时间的负载。
进一步地,所述基于所述训练数据集对元学习模型进行学习,包括:
将所述历史输入数据负载输入所述MLP基础学习器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210431141.3/2.html,转载请声明来源钻瓜专利网。