[发明专利]一种基于贝叶斯优化的流数据处理系统配置参数调优方法在审
申请号: | 202111456351.X | 申请日: | 2021-12-01 |
公开(公告)号: | CN116225860A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 黄世鑫;朱港亚;陈超;辛锦瀚;喻之斌;王峥;杨永魁;单亚龙;李玉泽 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F9/445;G06N20/20;G06N5/01;G06N7/01 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 朱伟军;刘婷 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贝叶斯 优化 数据处理 系统配置 参数 方法 | ||
1.一种基于贝叶斯优化的流数据处理系统配置参数调优方法,其特征在于,所述方法包括以下步骤:
S100、确定当前流处理系统的要改进的性能指标,根据该性能指标,确定要调优的一组配置参数;
S200、生成样本集,该样本集中的每一个样本,由一组配置参数值和其对应的性能指标值组成;
S300、对每一个样本,将其中的性能指标值作为输出,该性能指标值对应的那组配置参数值作为输入,使用随机森林算法建立性能模型;
S400、将所述性能指标作为贝叶斯优化算法的目标,对所述性能模型的参数进行搜索,将搜索到的一组配置参数值作为最优配置参数值,其对应的性能指标值为当前流数据处理系统的最优性能指标值。
2.根据权利要求1所述的方法,其特征在于,所述性能指标包括吞吐量、延迟时间、吞吐量与延迟时间的比率。
3.根据权利要求1所述的方法,其特征在于,所述步骤S200包括下述步骤:
S201、对每个配置参数,在该配置参数的值阈范围内,为该配置参数设定值,从而得到N组配置参数值;
S202、获取一组配置参数的值,在该组配置参数的值下,所述流处理系统还未负载运行以获得性能指标值;
S203、将该组配置参数的值写入所述流数据处理系统中,启动数据输入流,运行所述流数据处理系统的时间长度为T1;获取当前流数据处理系统下的性能指标值;
S204、判断是否还存在配置参数组,在该组配置参数的值下,所述流处理系统还未负载运行以获得性能指标值;若存在这样的配置参数组,则执行步骤S202;
N为设定值,T1为设定值。
4.根据权利要求3所述的方法,其特征在于,所述步骤S201中设定值的方法采用拉丁超立方抽样方法。
5.根据权利要求3所述的方法,其特征在于,所述步骤S202之前,还包括下述步骤:
S2021、获取一组配置参数的值,该组配置参数的值未进行标记;将组配置参数的值写入所述流数据处理系统中,运行所述流数据处理系统的时间长度为T2;
S2022、若所述流数据处理系统在运行时间长度T2后,停止运行,则标记该组配置参数的值为失败;否则,标记该组配置参数的值成功;
S2023、判断是否还存在配置参数组,对该组配置参数的值未进行标记;若存在这样的配置参数组,则执行步骤S2021;
T2为设定值。
6.一种基于贝叶斯优化的流数据处理系统配置参数调优装置,其特征在于,所述装置包括下述模块:
确定参数模块:确定当前流处理系统的要改进的性能指标,根据该性能指标,确定要调优的一组配置参数;
样本生成器:生成样本集,该样本集中的每一个样本,由一组配置参数值和其对应的性能指标值组成;
建模模块:对每一个样本,将其中的性能指标值作为输出,该性能指标值对应的那组配置参数值作为输入,使用随机森林算法建立性能模型;
搜索模块:将所述性能指标作为贝叶斯优化算法的目标,对所述性能模型的参数进行搜索,将搜索到的一组配置参数值作为最优配置参数值,其对应的性能指标值为当前流数据处理系统的最优性能指标值。
7.根据权利要求6所述的装置,其特征在于,所述性能指标包括吞吐量、延迟时间、吞吐量与延迟时间的比率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111456351.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:柑橘防日灼的农药组合物
- 下一篇:一种图像处理方法、电子设备及芯片