[发明专利]引擎选择方法、装置及计算设备在审
申请号: | 202010429439.1 | 申请日: | 2020-05-20 |
公开(公告)号: | CN113704286A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 钟全龙;李志君;赵奇勇;杨冰;孙铖然;林星锦 | 申请(专利权)人: | 中国移动通信集团重庆有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/28;G06N3/04;G06N3/08 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 王广涛 |
地址: | 401121*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 引擎 选择 方法 装置 计算 设备 | ||
本发明实施例涉及大数据技术领域,公开了一种引擎选择方法、装置及计算设备。该方法包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述SQL训练语句在Spark引擎上运行的第二运行时间;根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息;根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值;根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,并将训练后的所述预设分类模型作为引擎推荐模型;根据所述引擎推荐模型,进行引擎选择。通过上述方式,本发明实施例能够合理选择执行引擎,从而提高程序的执行效率。
技术领域
本发明实施例涉及大数据技术领域,具体涉及一种引擎选择方法、装置及计算设备。
背景技术
Hadoop是一个用于对大量数据进行分布式处理的软件框架,其能够以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop一般包含HDFS、Zookeeper、YARN、Mapreduct(简称MR)、Hive和Spark等组件,常用的Hive和Spark都部署在YARN上,对前端开发人员是无感知的,开发人员可以自主选择运行的方式。
目前,开发人员一般根据自己的经验选择Hive或Spark作为Hadoop的执行引擎,若选择不当,则容易导致开发的程序效率较低。
发明内容
鉴于上述问题,本发明实施例提供了一种引擎选择方法、装置及计算设备,能够合理选择执行引擎,从而提高程序的执行效率。
根据本发明实施例的第一方面,提供了一种引擎选择方法,包括:获取若干SQL训练语句;获取所述SQL训练语句在Hive引擎上运行的第一运行时间,以及所述SQL训练语句在Spark引擎上运行的第二运行时间;根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息;根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值;根据所述训练特征变量、所述训练特征变量对应的特征值以及所述推荐引擎信息,训练预设分类模型,并将训练后的所述预设分类模型作为引擎推荐模型;根据所述引擎推荐模型,进行引擎选择。
在一种可选的方式中,所述根据所述第一运行时间和所述第二运行时间,确定推荐引擎信息,具体包括:若所述第一运行时间小于所述第二运行时间,则确定所述推荐引擎信息为所述Hive引擎的标识信息;若所述第一运行时间大于所述第二运行时间,则确定所述推荐引擎信息为所述Spark引擎的标识信息。
在一种可选的方式中,所述预设特征变量包括关联变量、聚合变量、统计变量、求和变量、排序变量、合并变量、去重变量;所述根据预设特征变量,在所述SQL训练语句中获取训练特征变量,并确定所述训练特征变量对应的特征值,具体包括:在所述SQL训练语句中获取与所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量相同的所述训练特征变量;将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数确定为所述训练特征变量对应的特征值。
在一种可选的方式中,所述预设特征变量还包括表大小;所述将所述关联变量、所述聚合变量、所述统计变量、所述求和变量、所述排序变量、所述合并变量、所述去重变量的个数确定为所述训练特征变量对应的特征值,具体包括:将所述关联变量的个数、所述聚合变量的个数、所述统计变量的个数、所述求和变量的个数、所述排序变量的个数、所述合并变量的个数、所述去重变量的个数、所述表大小的值确定为所述训练特征变量对应的特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团重庆有限公司;中国移动通信集团有限公司,未经中国移动通信集团重庆有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010429439.1/2.html,转载请声明来源钻瓜专利网。