[发明专利]一种自适应多表连接基数估计的方法和系统在审

专利信息
申请号: 202310102690.0 申请日: 2023-02-06
公开(公告)号: CN116150189A 公开(公告)日: 2023-05-23
发明(设计)人: 彭朝晖;陈倩;马桢;王一博 申请(专利权)人: 山东大学
主分类号: G06F16/2453 分类号: G06F16/2453;G06F16/242;G06F16/2455;G06N3/0464
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 张庆骞
地址: 266237 *** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自适应 连接 基数 估计 方法 系统
【说明书】:

发明属于连接基数估计领域,提供了一种自适应多表连接基数估计的方法和系统。其中,自适应多表连接基数估计的方法包括接收输入的查询语句并分析其包含关系及多表连接的连接关系;将查询语句的分析结果进行特征向量化,再基于基数估计模型预测出查询语句的基数;将查询语句转化为数据库查询提示,通过该提示操作的查询优化器,执行查询语句,得出真实基数值;将查询语句的分析结果对应的特征向量及真实基数值构成训练样本,并对基数估计模型再训练,以学习多表联合查询相关性,用于下次连接基数的估计。

技术领域

本发明属于连接基数估计领域,尤其涉及一种自适应多表连接基数估计的方法和系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

查询优化是数据库管理系统的核心之一,涉及数据库查询执行计划树的构建、计划树节点处具体实现方式的选择、参数的选择、编译执行的选择等。查询优化器主要由基数估计、成本模型、计划枚举三个组件构成。在查询优化阶段输入SQL语句经过分析和检查之后得到语法树。数估计模块预测在单表的筛选条件下该表剩余行数或在多表连接的筛选条件下连接后的表剩余行数。基数估计是查询优化的重要组成部分,该模块的输出将会用于成本模型中估计每个查询方案中表的行数、方案的执行时间,从而在计划枚举空间中选择一个能够高效执行该查询的查询计划,使接下来的查询执行的效率得到提升。

传统的基数估计研究的挑战在于相关谓词涉及不同表中的列的查询,这些列通过join连接,称之为“多表联合查询相关性”。多表连接基数估计的先验知识存在不易统计、泛用性低等问题,尤其是当三个以上的表进行连接时,常使用独立性分布假设进行预测,容易出现预测结果不准确等问题。在多表连接基数估计中,随着参与连接表数量的增加,基数估计结果误差逐渐变大,且呈现严重的低估多表连接基数的倾向。发明人发现,传统基数估计方法对数据应用属性值独立等假设,查询反馈信息没有被有效利用,这样导致没有考虑到数据(列)之间的相关性,往往会产生不准确的基数估计结果,因而选择到次优执行计划,最终导致查询执行低效且缓慢。

发明内容

为了解决上述背景技术中存在的技术问题,本发明提供一种自适应多表连接基数估计的方法和系统,其在数据预处理部分建立相关性样本特征,利用准确的执行统计信息与带有相关性特征的样本作为训练数据输入模型,使用自适应思想进行模型的训练,可以更好学习多表联合查询下的相关性,从而提高多表连接查询基数估计的准确率。

为了实现上述目的,本发明采用如下技术方案:

本发明的第一个方面提供一种自适应多表连接基数估计的方法。

一种自适应多表连接基数估计的方法,其包括:

接收输入的查询语句并分析其包含关系及多表连接的连接关系;

将查询语句的分析结果进行特征向量化,再基于基数估计模型预测出查询语句的基数;

将查询语句转化为数据库查询提示,通过该提示操作的查询优化器,执行查询语句,得出真实基数值;

将查询语句的分析结果对应的特征向量及真实基数值构成训练样本,并对基数估计模型再训练,以学习多表联合查询相关性,用于下次连接基数的估计。

作为一种实施方式,所述基数估计模型为多集卷积网络模型。

作为一种实施方式,在多集卷积网络模型中,表、连接和谓词表示为单独的模块,每个集合元素由一个两层神经网络组成,具有共享参数;模块输出依次经平均和串联操作后,馈送至最终输出网络。

作为一种实施方式,将查询语句的分析结果进行特征向量化的过程为:

将查询语句的分析结果进行编码且表示成唯一的one-hot向量;

再将one-hot向量进行标准化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310102690.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top