[发明专利]基于AI的SQL引擎调用方法、装置、设备及介质在审
申请号: | 202110725749.2 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113449037A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 史朋飞 | 申请(专利权)人: | 未鲲(上海)科技服务有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/242;G06N3/08 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 涂年影 |
地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ai sql 引擎 调用 方法 装置 设备 介质 | ||
本发明涉及人工智能及大数据领域,提供一种基于AI的SQL引擎调用方法、装置、设备及介质,能够对历史SQL特征及历史环境特征进行归一化处理,得到历史特征,通过编码将特征转化为机器语言,便于后续模型的训练,训练SQL引擎预测模型,优化待预测query的执行计划,使待预测query的执行更加快速,提高了运行效率,构建目标query的目标特征并输入至SQL引擎预测模型以确定与待预测query匹配的目标引擎,进而基于训练的AI模型对提交的待预测query查询执行进行自动管理,无需人工介入,用户不再需要了解各个大数据引擎的特性并做出选择,直接由训练得到的AI模型自动推荐,以辅助选择合适的计算引擎。此外,本发明还涉及区块链技术,训练得到的模型可存储于区块链节点中。
技术领域
本发明涉及人工智能及大数据技术领域,尤其涉及一种基于AI的SQL引擎调用方法、装置、设备及介质。
背景技术
大数据生态有很多种不同的计算引擎,比如hive,sparksql,impala,presto等。不同的引擎有自己的特点,有的引擎稳定性高,但是执行速度慢。有的引擎速度快,但是消耗资源多,且容错性差。有的引擎支持高并发,资源隔离。有的引擎不支持资源隔离,一个badquery会导致整个引擎crash。一般的使用者很难准确把握这些大数据引擎的特点,往往使用不当,对自己的业务和整个大数据集群造成影响。
发明内容
鉴于以上内容,有必要提供一种基于AI的SQL引擎调用方法、装置、设备及介质,能够基于训练的AI模型对提交的待预测query查询执行进行自动管理,无需人工介入,用户不再需要了解各个大数据引擎的特性并做出选择,直接由训练得到的AI模型自动推荐,以辅助选择合适的计算引擎。
一种基于AI的SQL引擎调用方法,所述基于AI的SQL引擎调用方法包括:
获取历史SQL的执行数据,及获取执行所述历史SQL的集群;
解析所述历史SQL的执行数据,得到历史SQL特征;
提取所述历史SQL的集群的集群环境指标,得到历史环境特征;
对所述历史SQL特征及所述历史环境特征进行归一化处理,得到历史特征;
根据所述历史SQL的执行数据对所述历史特征进行标签处理,得到样本数据;
利用所述样本数据训练指定神经网络,得到SQL引擎预测模型;
响应于待预测query,对所述待预测query进行优化处理,得到目标query;
获取所述目标query的执行数据及执行所述目标query的集群,并根据所述目标query的执行数据及执行所述目标query的集群构建所述目标query的目标特征;
将所述目标特征输入至所述SQL引擎预测模型,并根据所述SQL引擎预测模型的输出确定与所述待预测query匹配的目标引擎。
根据本发明优选实施例,所述对所述历史SQL特征及所述历史环境特征进行归一化处理,得到历史特征包括:
拼接所述历史SQL特征及所述历史环境特征,得到拼接特征;
识别所述拼接特征中的数字特征及非数字特征;
对所述非数字特征进行编码处理,得到所述非数字特征的编码表示;
保持所述数字特征不变,并将所述非数字特征替换为所述非数字特征的编码表示,得到所述历史特征。
根据本发明优选实施例,所述利用所述样本数据训练指定神经网络,得到SQL引擎预测模型包括:
重复执行对所述样本数据的拆分,其中,对所述样本数据的拆分包括:将所述样本数据按照配置比例随机拆分为验证集及训练集,并将所述验证集及所述训练集确定为一组训练数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于未鲲(上海)科技服务有限公司,未经未鲲(上海)科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110725749.2/2.html,转载请声明来源钻瓜专利网。