[发明专利]表的增量聚类维护在审
申请号: | 201780067721.6 | 申请日: | 2017-09-05 |
公开(公告)号: | CN110100242A | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 蒂埃里·克吕安斯;马尔辛·祖科夫斯基;本诺特·戴奇维勒;严佳琪 | 申请(专利权)人: | 斯诺弗雷克公司 |
主分类号: | G06F16/245 | 分类号: | G06F16/245;G06F16/22 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 周靖;杨明钊 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 分区 表数据 用户命令 增量步骤 迭代 显式 近似 存储 响应 创建 改进 维护 | ||
1.一种计算机数据库实现的方法,所述方法包括:
将表的表数据存储在多个分区中,其中每个分区包括所述表的表数据的一部分,并且其中基于所述表中的一个或更多个属性至少部分地聚类所述分区;
基于对所述表的改变创建一个或更多个新分区,其中所述一个或更多个新分区中的至少一个新分区彼此重叠或与先前的分区重叠,导致所述表的聚类程度降低;
确定所述表数据的聚类程度低于聚类阈值;以及
响应于以下项中的一项更或多项和/或作为DML命令的一部分重新聚类所述表的一个或更多个分区以提高所述表的聚类程度:确定所述聚类程度已经下降到所述聚类阈值以下;来自用户的显式用户命令。
2.根据权利要求1所述的方法,还包括基于以下项中的一项或更多项来确定所述聚类程度:
有多少个分区与所述表的其它分区重叠;
一个或更多个分区与所述表的其它分区重叠的程度;
针对一个或更多个属性值确定有多少个分区重叠;
所述表分区的每个单独深度或所述表分区的深度分布;或者
确定所述表分区的平均深度,其中该深度包括针对所述一个或更多个属性的特定属性值重叠的分区的数量。
3.根据权利要求1所述的方法,其中,确定所述表数据未被充分聚类还包括确定:所述表上的DML语句的量、频率或类型;或被添加到所述表中的新数据的量。
4.根据权利要求1所述的方法,其中,确定所述表数据未被充分聚类包括确定示例查询的执行时间超过阈值查询执行长度。
5.根据权利要求1所述的方法,其中,确定所述表数据未被充分聚类包括基于编译期间的修剪效果和执行期间的过滤选择性来确定。
6.根据权利要求1所述的方法,其中,重新聚类包括选择两个或更多个分区作为合并候选项。
7.根据权利要求6所述的方法,其中,选择所述两个或更多个分区作为所述合并候选项包括基于以下项中的一项或更多项进行选择:
所述两个或更多个分区包含所述一个或更多个属性的重叠值;
所述两个或更多个分区重叠的程度;
选择的分区的深度;
选择的分区的分布;
分区被重新聚类的次数;
资源预算;
被所述两个或更多个分区覆盖的与所述一个或更多个属性对应的值的宽度;或者
分区是否基于所述一个或更多个属性被理想地聚类。
8.根据权利要求6所述的方法,其中,选择所述两个或更多个分区作为所述合并候选项包括忽略以下分区:
不与所述表中的任何其它分区重叠的分区;或者
不与所述表中的任何其它分区重叠超过重叠阈值的分区。
9.根据权利要求6所述的方法,其中,选择两个或更多个分区作为所述合并候选项包括:忽略包括针对所述一个或更多个属性具有相同值的行值的分区。
10.根据权利要求1所述的方法,其中,重新聚类包括增量地改进聚类,并且其中重新聚类所述表数据的所述一个或更多个分区基于重新聚类迭代而朝向理想分区收敛。
11.根据权利要求1所述的方法,其中,重新聚类包括基于重新聚类资源预算、分区的数量、数据大小或可用的计算资源中的一个或更多个来重新聚类。
12.根据权利要求1所述的方法,其中,重新聚类包括合并两个或更多个分区以生成具有改进的聚类的一个或更多个分区。
13.根据权利要求1所述的方法,其中,在对所述表的所述改变之前或之后,所述表没有被理想地聚类,其中理想地聚类包括以下项中的一项或更多项:
每个分区在与所述一个或更多个属性对应的值的范围内不包括重叠;或者
针对所述一个或更多个属性中的属性的分区的所有行包括相同的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯诺弗雷克公司,未经斯诺弗雷克公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780067721.6/1.html,转载请声明来源钻瓜专利网。