[发明专利]作业执行引擎的切换方法及装置在审

申请号：	202211660710.8	申请日：	2022-12-23
公开（公告）号：	CN115905293A	公开（公告）日：	2023-04-04
发明（设计）人：	顾光晔;朱超;倪颖婷;钟亚洲	申请（专利权）人：	中国工商银行股份有限公司
主分类号：	G06F16/242	分类号：	G06F16/242;G06F16/2458;G06F16/28
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	崔博;任默闻
地址：	100140 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	作业执行引擎切换方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种作业执行引擎的切换方法及装置，可用于深度学习技术领域，该方法包括：获取待执行查询语句；根据预设的引擎分类模型，确定所述待执行查询语句对应的目标作业执行引擎和引擎参数，所述预设的引擎分类模型是基于批量历史查询语句及其各自对应的引擎标签对多分类模型预先训练得到的；应用所述目标作业执行引擎和引擎参数，执行所述待执行查询语句。本申请能够提高作业执行引擎切换的可靠性和效率，进而能够提高作业效率。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种作业执行引擎的切换方法及装置。

背景技术

目前，大数据生态执行引擎主要分为两种作业执行引擎：分布式离线执行引擎和内存级作业执行引擎。

分布式离线执行引擎比较适合执行数据离线任务，主要适用于大批量的集群任务，当数据过大或集群资源繁忙时，相较于内存级作业执行引擎，分布式离线执行引擎能够保证生产系统的稳定，但是由于是批量执行，同时任务中间输出结果保存在分布式文件系统，任务需要频繁读写分布式文件系统，运行效率偏低。

内存级作业执行引擎是一种通用的基于内存的并行计算框架，致力于通过内存迭代计算来提高数据处理性能，是专为大规模计算数据处理而设计的快速通用的执行引擎，可以用它来完成各种各样的计算。任务中间输出结果保存在内存中，不再需要读写分布式文件系统，从而可以大大提升作业效率。但是，当数据过大或集群资源繁忙时，这种作业执行引擎并不适用。

因此，单独应用这两种作业执行引擎中的一种，无法适应某天突然猛增的数据量，无法满足业务蓬勃发展数据量、需求迭代以及时效要求日益增加的当下。

发明内容

针对现有技术中的至少一个问题，本申请提出了一种作业执行引擎的切换方法及装置，能够提高作业执行引擎切换的可靠性和效率，进而能够提高作业效率。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种作业执行引擎的切换方法，包括：

获取待执行查询语句；

根据预设的引擎分类模型，确定所述待执行查询语句对应的目标作业执行引擎和引擎参数，所述预设的引擎分类模型是基于批量历史查询语句及其各自对应的引擎标签对多分类模型预先训练得到的；

应用所述目标作业执行引擎和引擎参数，执行所述待执行查询语句。

进一步地，所述获取待执行查询语句，包括：

获取目标查询脚本，依次选取所述目标查询脚本中的查询语句作为待执行查询语句；

相对应的，所述应用所述目标作业执行引擎和引擎参数，执行所述待执行查询语句，包括：

若所述待执行查询语句为所述目标查询脚本中的首条查询语句，则将所述目标作业执行引擎确定为当前作业执行引擎，应用所述当前作业执行引擎和所述引擎参数执行所述待执行查询语句，否则确定所述目标作业执行引擎与当前作业执行引擎是否相同，若否，则将当前作业执行引擎切换为所述目标作业执行引擎，应用所述当前作业执行引擎和所述引擎参数执行所述待执行查询语句。

进一步地，在所述根据预设的引擎分类模型，确定所述待执行查询语句对应的目标作业执行引擎和引擎参数之前，还包括：

获取批量历史查询语句及其各自对应的引擎标签；

应用批量历史查询语句及其各自对应的引擎标签对多分类模型进行训练，得到所述预设的引擎分类模型。

进一步地，所述获取批量历史查询语句及其各自对应的引擎标签，包括：

获取批量历史查询语句；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司，未经中国工商银行股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211660710.8/2.html，转载请声明来源钻瓜专利网。