[发明专利]基于深度图压缩算法的并行查询表现预测系统及方法有效

申请号：	202010342856.2	申请日：	2020-04-27
公开（公告）号：	CN111581454B	公开（公告）日：	2023-05-23
发明（设计）人：	李国良;周煊赫	申请（专利权）人：	清华大学
主分类号：	G06F16/903	分类号：	G06F16/903;G06F16/9032;G06N3/0464;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	石茵汀
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度压缩算法并行查询表现预测系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度图压缩算法的并行查询表现预测系统，其特征在于，包括：查询预处理模块、在线预测模块和离线训练模块；

所述查询预处理模块，用于对并行查询信息进行提取，并更新负载图的节点和边特征，以及对负载图进行合并；

所述在线预测模块，用于利用模型计算出负载图上并行查询的执行特征；

所述离线训练模块，用于利用历史数据训练深度图压缩模型和深度学习模型以学习模型的参数；

所述查询预处理模块进一步包括：查询编码模块、图更新模块和图合并模块；

所述查询编码模块，用于从给定的并行查询信息中提取执行计划中的有用信息；具体为使用数据库优化器将原查询语句解析成执行计划树，将所述执行计划树上的每个算子节点信息编码成特征向量；

所述图更新模块，用于使用当前的查询信息更新负载图上的节点和边特征；具体为根据先负载图上节点的结束时间更新或删除执行中或执行完毕的节点，然后添加新提交的算子节点和相应的边关系；

所述图合并模块，用于通过合并存在时间重叠的节点以减小负载图的规模，具体为先根据每个节点的执行时间范围将存在时间重叠的节点进行聚类，再通过最少完全连接子图划分，在各个类内将没有边关系的节点合并为一个节点。

2.根据权利要求1所述的基于深度图压缩算法的并行查询表现预测系统，其特征在于，所述在线预测模块和所述离线训练模块为基于深度图压缩算法和深度神经网络的表现预测器。

3.根据权利要求1所述的基于深度图压缩算法的并行查询表现预测系统，其特征在于，所述在线预测模块进一步包括：图特征压缩模块和表现预测模块；

所述图特征压缩模块，用于将原始图解析成每个节点的特征集合，具体为利用深度图压缩模型针对每个节点的k跳内子图结构进行特征选择和压缩，通过前向传播将k跳子图结构信息映射到低维特征向量；

所述表现预测模块，用于根据每个节点的子图特征预测执行表现，具体为利用深度学习模型从历史数据中学习从节点的子图特征映射到执行表现的拟合函数。

4.根据权利要求1所述的基于深度图压缩算法的并行查询表现预测系统，其特征在于，

所述深度图压缩模型指的是利用图卷积网络，提取每个节点上的k跳内邻居信息，利用图卷积技术将节点和邻居特征映射到表示执行性能的抽象空间中，学习的过程指的是根据每张负载图上部分的节点信息更新图网络的参数，以准确的压缩其余节点的执行特征；

所述深度学习模型指的是利用多层神经网络拟合函数，对于给定的输入产生相应的输出，学习的过程指的是用已有的历史数据训练多层神经网络以确定网络的参数。

5.根据权利要求1所述的基于深度图压缩算法的并行查询表现预测系统，其特征在于，在所述查询编码模块中，查询编码包括两类，一类是图上的算子节点信息，包括优化器估计的执行代价，算子类型，谓词编码以及采样的结果特征；另一类是节点间的边信息，包括数据传递关系、潜在的数据共享关系、潜在的访问冲突关系以及潜在的资源竞争关系。

6.根据权利要求5所述的基于深度图压缩算法的并行查询表现预测系统，其特征在于，所述谓词编码指的是将查询中的条件转化成特征向量，利用的方法是将原子条件解析成三元组[列名，操作符，操作数]，并表示成独热向量，再根据逻辑运算将树结构的复合谓词按照深度优先顺序转换成一维的特征序列。

7.一种基于深度图压缩算法的并行查询表现预测系统的创建方法，其特征在于，包括以下步骤：

S101，定义查询表现、物理算子的执行指标，物理算子间的执行关系；

S102，基于给定的数据库系统实现查询预处理模块中的查询编码模块，图更新模块和图合并模块；

S103，建立深度图压缩模型，用于提取每个算子节点的自身特征和邻接子图结构信息，表示为节点的结构信息；

S104，建立深度学习模型，用于预测并行查询的执行时间表现特征；

S105，收集历史数据训练所述深度图压缩模型和所述深度学习模型；

S106，将训练后的所述深度图压缩模型和所述深度学习模型部署到系统中，通过所述系统并行查询表现预测。

8.一种基于深度图压缩算法的并行查询表现预测系统的使用方法，其特征在于，包括以下步骤：

S201，获取多个并行查询语句组成的工作负载，利用查询编码模块抽取工作负载特征并更新到负载图模型中；

S202，利用部署的图更新模块删除已经完成的节点，更新正在执行的节点；

S203，利用部署的图合并模块将存在时间重叠且没有边关系的节点合并，得到合并后的负载图；