[发明专利]在时间序列数据库中查找给定时间序列的近似序列的方法有效
申请号: | 201210197177.6 | 申请日: | 2012-06-15 |
公开(公告)号: | CN102737124B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 王鹏;汪卫;汪洋;祝然威 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据挖掘技术领域,具体为一种在海量时间序列数据库中查找给定时间序列的近似序列的方法。该方法包括采用树状索引的结点表示方式;根据索引的算法框架,逐条构建索引;选择最优策略进行结点分裂;最后基于DSTree索引进行查询,海量时间序列数据库中查找给定时间序列的近似序列。本发明提出的索引方法,根据时间序列的数据分布情况调整索引子序列长度和维度,新的索引表示方式也满足提供距离上界的需求,大幅提高查询效率。 | ||
搜索关键词: | 时间 序列 数据库 查找 给定 近似 方法 | ||
【主权项】:
一种在海量时间序列数据库中查找给定时间序列的近似序列的方法,其特征在于具体步骤为:(一)构建树结构索引:在海量时间序列插入数据库时,利用索引构建算法逐条构建树结构索引,构建索引的算法步骤如下:(1)对于新插入的时间序列X和索引结点N,N的初始值为根结点,首先计算X的平均值和标准差mQ、sQ,更新索引结点N的平均值上、下界:mu、ml,和标准差上、下界:su、sl;(2)如果索引结点N是叶结点,将时间序列X放入索引结点N指向的文件F中,并执行步骤(3)‑步骤(5),否则跳过步骤(3)‑步骤(5),直接执行步骤(6);(3)如果索引结点N中时间序列数量超过指定的阈值th,选择一个最优结点分裂策略SP;(4)把索引结点N设为非叶子结点,新建两叶子结点作为N的子结点;(5)将索引结点N结点对应的F文件中的时间序列逐条插入到子结点中;(6)判断时间序列X属于索引结点N的哪个子结点,将X插入对应的子结点;其中,步骤(3)中,所述一个最优结点分裂策略SP从如下3种结点分裂策略中选择,并按照该策略对叶子节点进行分裂;所述3种结点分裂策略分别如下:(a)根据平均值纵向分裂:假设选中将要分裂的索引结点N所指向的时间序列平均值的取值范围为[μl,μu],其中μl,μu分别表示平均值上、下界,那么将N分裂为两个新结点Nl,Nr,它们所指向的时间序列的平均值取值范围分别为(b)根据标准差纵向分裂:假设选中将要分裂的索引结点N所指向的时间序列方差的取值范围为[σl,σu],其中σl,σu分别表示标准差上、下界,那么将N分裂为两个新结点Nl,Nr,它们所指向的时间序列的标准差取值范围分别为(c)根据时间跨度横向分裂:假设选中将要分裂的索引结点N所指向的时间序列的时间取值范围为[ri‑1+1,ri],其中ri表示时间第i段时间序列中最后一个点的时刻,那么将N分裂为两个部分S1和S2,它们所指向的时间序列的时间取值范围分别为再从S1和S2中选择一个, 根据平均值或者标准差进行纵向分裂,得到R1,R2两个值域,再依据R1,R2对N进行划分;其中,假设被选中的S1平均值取值范围为[μl,μu],则R1,R2分别为对于3种分裂策略,最优策略SP的选择依据是:(a)定义结点计算指标:其中μu,μl分别表示节点包含的所有时间序列的平均值的上、下界,σu表示标准差上界;(b)对于结点N的三种分裂策略,用Nl,Nr表示分裂后结点,分别计算分裂策略的收益B:其中和分别是原始节点N、分裂得到的两个节点Nl和Nr的质量;选择B值最大的策略对N进行分裂;(二)基于DSTree索引的查询:索引构建完成后,在海量时间序列数据库中查找给定时间序列的近似序列,其步骤为:(1)对于待查的时间序列Q,先以步骤(一)的构建树结构索引算法,计算得出距离Q最近的索引结点N0,对于时间序列Q,其均值记为μQ,标准差记为σQ;索引节点N中的均值最大值为μu,最小值为μl;标准差最大值为σu,最小值为σl;由表1得出Q与N0之间的均值和标准差上下界UBμ/n、LBμ/n、UBσ/n和LBσ/n,取LBμ/n和LBσ/n之和为Q与N0之间距离平方的下界LBdist,开方可得距离下界初始值BSF;(2)接下来从根结点root开始自顶向下广度优先遍历索引树,对于树中的一个结点N,若N与Q的距离下界LBdist大于BSF,则忽略N及其所有子孙结点;若N与Q距离下界LBdist小于BSF,更新BSF,遍历N的所有子结点;对于遍历过程中小于BSF的叶子结点Nleaf,将其中包含的每一条序列取出与Q直接计算距离,用最小距离更新BSF;索引遍历结束时,BSF的值为最小距离,所对应的序列即最近似序列:表1.时间序列与时间序列集合距离上、下界计算表Case UBσ/n LBσ/n σQ≤σl(σu+σQ)2(σl‑σQ)2σl≤σQ≤σu(σu+σQ)20 σu≤σQ(σu+σQ)2(σu‑σQ)2 。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210197177.6/,转载请声明来源钻瓜专利网。