[发明专利]关系数据库下查询驱动的智能工作负载分析方法有效
申请号: | 202110127114.2 | 申请日: | 2021-01-29 |
公开(公告)号: | CN113157814B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 杨晓春;王毅;郭苗苗;王斌 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/22;G06F16/2458;G06F9/50;G06N3/044;G06N3/0464;G06N3/08 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李梁 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系 数据库 查询 驱动 智能 工作 负载 分析 方法 | ||
本发明提供一种关系数据库下查询驱动的智能工作负载分析方法,涉及数据库技术领域。本发明通过采集数据库中和workload相关的信息,包括物理特征、逻辑特征以及查询到达率三个方面的特征。首先物理特征是采集DBMS执行查询是使用的资源量和其他的运行指标,逻辑特征则是基于查询日志,对查询日志进行相关分析,得到的该workload的逻辑结构上的信息,通过将SQL解析成语法树,同时将语法树经过一些设计的规则转化成词向量,将这些向量作为表征workload的逻辑特征;最后基于查询日志,将查询日志进行模板化,计算时间间隔内模板到达率,通过机器学习模型学习出一种workload的精确表示。最后基于workload的精确表示进行相关的匹配算法,从而识别未知workload的类别,进行更好的参数配置。
技术领域
本发明涉及数据库技术领域,尤其涉及一种关系数据库下查询驱动的智能工作负载分析方法。
背景技术
数据库工作负载主要分为两大类:OLTP(on-line transactionprocessing)和OLAP(On-Line Analytical Processing),两类负载解决的问题各不相同。OLTP主要应用在传统的关系型数据库上面,对日常的事务进行处理,主要包括增删改查4种查询。一般情况下OLTP类型的工作负载用户并发量较大,但查询相对比较简单,会进行频繁的读写操作,因此需要较高的吞吐量和较低的响应时间,对内存的需求会比较大。而OLAP主要应用在数据仓库上上面,侧重于复杂的分析和决策类操作。一般OLAP类型的工作负载用户并发量较小,查询的数目较少,但每条查询都很复杂,需要对大量的数据作分析并做出决策,对CPU和磁盘I/O要求较高。
当前云数据库多为传统的关系型数据库,运行OLTP相关业务。在OLTP中也可以继续划分不同的工作负载,用户的每种业务都会对应一个工作负载,业务不同导致工作负载不也相同,具体表现在他们对数据库请求事务及查询类型不相同。表1中列举了Oltpbench测试工具中4种不同的工作负载,对应4种不同的业务场景。例如TPCC是工业界常用的测试OLTP数据库性能的工具,该工作负载对应电子商务型的业务,共有五种事务分别是:新订单、支付、查询订单、运输货物和查询库存,它们比例各不相同,每种事务中会有多条查询语句,对数据库中的9个表执行各种查询。
表1工作负载示例
由于不同工作负载对应的事务和增删改查比例各不相同,因此对硬件资源的需求存在差别。在读比例比较大的工作负载下,如TATP,通过改变查询缓存相关的参数增加查询结果缓存,可以提升性能;在写数据比较多的工作负载下,如TPCC,通过增加buffer pool的大小、改变刷盘方式等,都会提高数据库性能。另外,如果查询中多表连接、排序比较多的话,还需要增加连接和排序的缓存大小。
目前很多相关的数据库业务是基于工作负载的,比如在数据库参数调优任务中,不同的业务对应的数据库参数配置是存在一定的差异的,甚至是很大的区别,如果当前的workload发生变化,但数据库参数配置没有改变时,会导致数据库的性能大大的降低,难以满足用户的需求,所以精准的区分不同的workload是十分重要的。同时,数据库可调的参数有近两百个,每个参数的取值又是非常多的,所以要想获取覆盖不同workload的数据集是不现实的,但是如果能够从多个特征去获取相似workload的数据是可行的,这样就可以解决数据较少的问题,进而提升训练的精度,得到更好的学习模型,使推荐的参数更有意义。
目前常用的workload的匹配方法是基于数据库状态变量,但是数据库状态变量受多方面因素的影响,导致匹配不准确。同时说明数据库状态变量难以表征workload,所以需要提供一种能够更好表示workload的方法,不仅可以达到区分workload的目的,还可以获取和已知workload更相似的数据,弥补数据不足的情况。通过对不同workload的识别,可以使大量基于workload的数据库业务性能上得以提升,进一步提高资源的可利用性和用户的体验。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110127114.2/2.html,转载请声明来源钻瓜专利网。