[发明专利]基于人工智能的数据库索引创建方法及相关设备在审
申请号: | 202111529424.3 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114238698A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 张利兵 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/9032;G06N20/00 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 陈海云;严林 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 数据库 索引 创建 方法 相关 设备 | ||
本发明涉及人工智能技术领域,提供一种基于人工智能的数据库索引创建方法及相关设备,通过植入埋点捕获应用访问数据库的查询语句,对所述查询语句进行解析,得到多个搜索关键词和要查询的数据表,根据所述数据表计算多个预设指标的特征值,将所述多个预设指标的特征值及所述多个搜索关键词输入至第一随机森林模型中进行预测,得到每个所述搜索关键词对应的第一索引标签,根据每个所述搜索关键词对应的第一索引标签为所述数据表创建第一索引。本发明能够自动添加索引,不仅减少了索引设计的工作量,提高了索引的创建效率,还提高了索引创建的时效性和准确性。
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的数据库索引创建方法、装置、电子设备及存储介质。
背景技术
面向互联网应用的数据库往往需要支持几千甚至上万的事务处理系统(transaction processing system,TPS),并且响应延迟以毫秒为单位,因此数据库的设计和优化至关重要。目前索引是最为有效,也是实施最快的优化技术之一。
发明人在实现本发明的过程中发现,通常在开发阶段就根据搜索的业务场景对表的搜索字段提前增加索引,但存在场景的考虑不全,导致索引的遗漏;另外由于数据分布差异,出现索引选择性不高或者无法命中的情形,在数据量达到百万之后,数据库的性能急剧下降。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的数据库索引创建方法、装置、电子设备及存储介质,通过人工智能的方式自动添加索引,不仅减少了索引设计的工作量,提高了索引的创建效率,还提高了索引创建的时效性和准确性。
本发明的第一方面提供一种基于人工智能的数据库索引创建方法,所述方法包括:
植入埋点并通过所述埋点捕获应用访问数据库的查询语句;
对所述查询语句进行解析,得到多个搜索关键词和要查询的数据表;
根据所述数据表计算多个预设指标的特征值;
将所述多个预设指标的特征值及所述多个搜索关键词输入至第一随机森林模型中进行预测,得到每个所述搜索关键词对应的第一索引标签;
根据每个所述搜索关键词对应的第一索引标签为所述数据表创建第一索引。
根据本发明的一个可选的实施方式,所述植入埋点并通过所述埋点捕获应用访问数据库的查询语句包括:
在后台应用服务中设置埋点服务SDK;
通过所述埋点服务SDK对外暴露一个数据埋点服务接口;
当侦测到所述应用对所述数据库的访问信号时,调用所述数据埋点服务接口获取所述应用访问所述数据库的查询语句。
根据本发明的一个可选的实施方式,所述第一随机森林模型的训练过程包括:
获取多个所述预设指标的历史特征值及多个历史搜索关键词,作为第一训练数据集;
从所述第一训练数据集中随机抽取k1个训练样本集;
对所述k1个训练样本集进行学习,以此生成k1个决策树,并在所述k1个决策树的生成过程中,从k1个决策树的特征变量中随机抽取F1个特征变量,各个内部节点利用所述F1个特征变量上最优的分裂方式来分支,且F1值在随机森林模型的形成过程中设定为恒定常数;
当满足分支规则时,停止所述k1个决策树的生成过程,得到所述第一随机森林模型。
根据本发明的一个可选的实施方式,所述k1个决策树的生成过程包括:
随机地给每个所述特征变量加入噪声干扰;
依据准确率降低的程度来确定每个所述特征变量的重要度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111529424.3/2.html,转载请声明来源钻瓜专利网。