[发明专利]一种基于贝叶斯优化的流数据处理系统配置参数调优方法在审
申请号: | 202111456351.X | 申请日: | 2021-12-01 |
公开(公告)号: | CN116225860A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 黄世鑫;朱港亚;陈超;辛锦瀚;喻之斌;王峥;杨永魁;单亚龙;李玉泽 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F9/445;G06N20/20;G06N5/01;G06N7/01 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 朱伟军;刘婷 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 优化 数据处理 系统配置 参数 方法 | ||
本公开涉及一种基于贝叶斯优化的流数据处理系统配置参数调优方法,所述方法包括以下步骤:确定当前流处理系统的要改进的性能指标,根据该性能指标,确定要调优的一组配置参数;生成样本集,该样本集中的每一个样本,由一组配置参数值和其对应的性能指标值组成;对每一个样本,将其中的性能指标值作为输出,该性能指标值对应的那组配置参数值作为输入,使用随机森林算法建立性能模型;将所述性能指标作为贝叶斯优化算法的目标,对所述性能模型的参数进行搜索,将搜索到的一组配置参数值作为最优配置参数值,其对应的性能指标值为当前流数据处理系统的最优性能指标值。本公开方法可以对高维参数进行调优,具有很好的通用性。
技术领域
本公开涉及大数据处理领域,具体涉及一种贝叶斯优化的流数据处理系统配置参数调优方法。
背景技术
流数据处理系统在现如今的大数据处理领域越来越流行,目前大量的公司使用它来做实时的资源监控以及实时的数据分析。诸如Apache Flink,Apache Storm以及SparkStructured Streaming等流行的流处理框架,已经被广泛应用在许多知名的互联网公司上(Alibaba和Twitter等)。
流数据处理系统通常提供了许多(比如超过300个)资源配置参数,比如CPU核数,任务使用的内存等等。这些与I/O行为,负载平衡等有关的资源配置参数,我们称之为关键配置参数。这些关键配置参数会严重影响流数据处理系统的性能(比如吞吐以及延迟)。合理调整这些关键配置参数,会显著提高流数据处理系统的性能;反之,不合理的配置参数设置会导致集群资源的浪费,系统性能的下降以及任务运行失败等恶果。
虽然对于大多数流数据处理系统(比如Flink等),官方推荐了一套默认的资源配置参数。然而在实际流处理任务中,由于具体任务工作负载以及作业本身特征的不同,默认配置参数在大多数场景下会使得系统的性能遭到限制并且导致资源浪费等。
流数据处理系统中的关键配置参数需要结合集群硬件资源以及运行的具体作业等情况进行合理设置。人工调参的时间成本高且难以达到系统的性能最优值,现有的流数据处理系统配置参数自动调优方法又主要存在以下缺点:①调参方法不具备通用性,往往只能对一个特定的流处理框架进行调优;②调参考虑的参数往往很少(不超过10个),故参数调优后也并未达到系统性能的最优值;③性能调优考虑的指标因素往往比较单一(即只考虑吞吐或者延迟),但实际上对于流数据处理系统,吞吐和延迟都是重要的性能指标,并且高吞吐的场景下系统未必会有低的延迟。
发明内容
鉴于此,一方面,本发明提供一种贝叶斯优化的流数据处理系统配置参数调优方法,所述方法包括下述步骤:
S100、确定当前流处理系统的要改进的性能指标,根据该性能指标,确定要调优的一组配置参数;
S200、生成样本集,该样本集中的每一个样本,由一组配置参数值和其对应的性能指标值组成;
S300、对每一个样本,将其中的性能指标值作为输出,该性能指标值对应的那组配置参数值作为输入,使用随机森林算法建立性能模型;
S400、将所述性能指标作为贝叶斯优化算法的目标,对所述性能模型的参数进行搜索,将搜索到的一组配置参数值作为最优配置参数值,其对应的性能指标值为当前流数据处理系统的最优性能指标值。
在所述方法中,其中:所述性能指标包括吞吐量、延迟时间、吞吐量与延迟时间的比率。
在所述方法中,所述步骤S200包括下述步骤:
S201、对每个配置参数,在该配置参数的值阈范围内,为该配置参数设定值,从而得到N组配置参数值;
S202、获取一组配置参数的值,在该组配置参数的值下,所述流处理系统还未负载运行以获得性能指标值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111456351.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:柑橘防日灼的农药组合物
- 下一篇:一种图像处理方法、电子设备及芯片