[发明专利]一种基于随机森林的图数据处理框架自动调优方法在审
申请号: | 202011358762.0 | 申请日: | 2020-11-27 |
公开(公告)号: | CN114565001A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 陈超;辛锦瀚;杨永魁;王峥;喻之斌;郭伟钰;刘江佾 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12;G06N20/00 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 数据处理 框架 自动 方法 | ||
本发明公开了一种基于随机森林的图数据处理框架自动调优方法。该方法包括:构建训练数据集,该训练数据集的每条样本数据表征图数据处理框架的配置参数组合、输入数据集大小与程序运行时间之间的对应关系;基于所述训练数据集训练包含多棵决策树的随机森林模型,并将经训练的随机森林模型作为性能预测模型,用于对不同参数配置组合结合输入数据集大小预测对应的程序运行时间;在配置参数的搜索空间中,利用所述性能预测模型针对不同输入数据集大小,预测由遗传算法产生的不同配置参数的性能高低,进而获得最优配置参数。利用本发明能够感知输入数据集大小,实现深层次、高性能的配置参数自动优化。
技术领域
本发明涉及大数据处理技术领域,更具体地,涉及一种基于随机森林的图数据处理框架自动调优方法。
背景技术
随着互联网产业和技术的发展,在大数据领域,图形数据处理的规模与重要性也日益增长。以Spark GraphX框架为例,其是使用分布式数据流系统在Apache Spark上构建的嵌入式图形处理框架。Spark GraphX提供了一个熟悉的可配置图形抽象,足以表示现有的图形结构,并且可以使用一些基本的数据流运算符来实现(例如连接、映射和分组)。同时,SparkGraphX借助分布式连接优化和物化视图维护来重建特定的图形优化,并利用分布式数据流框架,提供了低成本的图形处理容错能力。
Spark GraphX的性能主要受配置参数的影响,不合理的配置会严重降低框架性能。Spark官方推荐了一套默认配置参数,然而在实际的图形数据处理任务中,默认配置参数无法根据计算资源以及工作负载的变化进行相应的适配,这导致Spark GraphX的性能受到限制,同时浪费了大量计算资源。Spark GraphX具有大量配置参数,且不同参数间存在相互影响,所以人工调参难度大、成本高,因而Spark GraphX配置参数的自动调优方法具有重大研究意义。
现有的Spark GraphX框架优化方法仅针对图并行抽象和稀疏图结构强加的限制实现了一系列系统优化,优化对象主要包括图特性和图系统,在传统数据库系统的经典技术基础上,进行了索引、增量视图维护和连接的优化,以及Spark中标准数据流操作符的优化,实现了与专用图处理系统的性能对等。然而现有的Spark GraphX优化方法只是对图数据本身特性的优化和Spark GraphX系统内部实现优化,而未考虑运行时的配置参数和输入数据集的大小对Spark GraphX的性能影响,优化效果较差;并且,现有Spark GraphX优化方法所使用的机器学习算法性能不佳,并且不能够适用于当前Spark GraphX调参优化场景。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于随机森林的图数据处理框架自动调优方法,可应用于Spark GraphX等图处理框架的配置参数优化。
本发明的技术方案是提供一种基于随机森林的图数据处理框架自动调优方法,该方法包括以下步骤:
构建训练数据集,该训练数据集的每条样本数据表征图数据处理框架的配置参数组合、输入数据集大小与程序运行时间之间的对应关系;
基于所述训练数据集训练包含多棵决策树的随机森林模型,其中每个决策树的训练集通过对所述训练数据集进行引导聚焦生成,将经训练的随机森林模型作为性能预测模型,用于对不同参数配置组合结合输入数据集大小预测对应的程序运行时间;
在配置参数的搜索空间中,利用所述性能预测模型针对不同输入数据集大小,预测由遗传算法产生的不同配置参数的性能高低,进而获得最优配置参数。
与现有技术相比,本发明的优点在于,在异构机器集群中,以图处理框架的配置参数为优化对象,实现了自动调参优化,能够自动感知数据集大小,最终找到运行程序的最佳配置。本发明针对图处理框架调参优化的特点,选取随机森林算法(RF)并结合遗传算法(GA)对输入数据集规模自动感知,实现了深入且高效的调参优化。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011358762.0/2.html,转载请声明来源钻瓜专利网。