[发明专利]一种批量流式计算系统参数动态配置方法有效
申请号: | 201910050828.0 | 申请日: | 2019-01-20 |
公开(公告)号: | CN109828836B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 梁毅;曾绍康;苏醒;于泽群;梁岩德;伍佳名;丁治明 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06F9/455 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 批量 计算 系统 参数 动态 配置 方法 | ||
本发明公开了一种批量流式计算系统参数动态配置方法,包括:样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,样本收集、模型构建和最优方案生成在后台阶段完成;在线匹配和参数优化于在线阶段完成。本方法根据每种参数与数据处理响应延迟的皮尔森相关显著性大小,选取对应用性能影响较大的核心参数集;在参数约简的前提下,选取支持向量回归方法构建应用性能模型,该模型可量化评估给定数据到达速率和相关参数配置下,数据处理的响应延迟性能;在性能建模的基础上,选取启发式遗传算法,在较大的解空间中快速搜索优化配置方案。
技术领域
本发明属于分布式计算领域,具体涉及批量流式计算系统的参数配置与优化方法。
背景技术
互联网、物联网的发展驱动大数据时代的到来。流式数据是大数据的一类重要数据形态,并随着社交网络等应用的发展,占据越来越高的比重。流式数据被定义为一系列海量、高速、持续到达的数据序列,是随着时间无限增长的动态数据集合。波动性是流式数据的核心特征:数据的产生完全由数据源确定,不同数据源的动态变化导致数据产生速率呈现波动变化,即前一时刻和后一时刻数据速率可能有很大的差异。
大数据流式计算是针对流式数据的数据处理技术。批量流式计算(batchedstream processing model)是一类重要的大数据流式计算模型。批量流式计算系统将流式数据的处理划分为三个阶段:数据接收、数据划分和数据计算。其中,数据接收是从以数据单元为粒度,按照系统设定的接收速率从数据源接收流式数据;数据划分则是指按照一定的数据块划分间隔,将连续的流式数据单元划分为离散的数据块,并按照一定的批次划分间隔按序将数据块封装为数据批次;数据计算则是指将形成的数据批次提交至批处理计算引擎的调度队列,最终以作业的形式进行数据的并行计算。批量流式计算系统可充分利用内存数据快速读取能力,以及批处理计算引擎的并行计算能力,从而获得近实时的数据单元处理响应,因此被广泛使用。数据处理响应延迟(data process latency)是批量流式计算系统的主要性能目标,响应延迟可定义为数据单元从到达系统到处理完毕所经过的时间。
参数配置是批量流式计算系统优化数据处理响应延迟的主要手段之一。参数配置是指在应用运行前或运行过程中,通过设置或修改系统提供的配置参数优化数据处理的延迟性能。在一定的资源分配下,改变参数配置对系统延迟性能具有较大的影响。目前,既有参数配置可分为两类,静态配置和动态配置。静态配置是指在批量流式计算应用运行前,根据应用运行语义和数据源特征,为应用一次性配置相关系统参数,且在应用运行过程中不再改变。动态配置是指在应用运行过程中,针对流式数据负载的波动性,改变系统参数的设置,从而保障在不同数据到达速率下的数据响应延迟。
然而,既有工作运用于实际生产型平台尚存在如下不足:
静态配置是目前批量流式计算系统提供的缺省方式,其优势是简单、成本低;缺点是不能适应流式数据天然的波动性特征。针对此缺点,动态配置被提出,但目前的动态配置只集中于数据划分阶段。而事实上,其它两个阶段的参数配置对性能也有重要影响:例如,随着批量流式计算系统数据计算阶段的参数值的降低,响应延迟会增加。显然,现有的工作只局限于数据划分阶段参数的动态配置,导致了性能调优灵活性的降低;另外,各阶段的参数存在依赖关系:例如,随着批量流式计算系统数据计算阶段的参数值的增加,数据批次划分间隔的最优值会降低。可见,现有的优化工作健壮性也较差,即现有对数据划分阶段的优化方案会由于数据接收或者数据计算阶段的参数改变而失效。综上所述,应将不同阶段参数协同配置,构建一体化的参数配置方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910050828.0/2.html,转载请声明来源钻瓜专利网。