[发明专利]一种基于数据特征的时间序列流数据快速搜索方法有效
申请号: | 201810845200.5 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109325060B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 展鹏;蒯硕;李学庆;丁一明;胡宇鹏 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 特征 时间 序列 快速 搜索 方法 | ||
1.一种基于数据特征的时间序列流数据快速搜索方法,其特征在于,包括步骤如下:
S1,参数预设,包括范围搜索用到的距离阈值DT、对时序进行CSTP分割所用到的参数;
对时序进行CSTP分割所用到的参数包括:单点最大数据拟合误差ME_SP、分段最大数据拟合误差ME_ES、转折点斜率变化参数μ、数据趋势点时间范围参数ρ;CSTP分割是一种基于转折点的在线连续分割算法,在时间序列中找出分割点,将其用于时间序列的分段线性表示;
单点最大数据拟合误差ME_SP是指在某一数据段的所有数据点中与拟合直线的垂直距离最大的数据点;分段最大数据拟合误差ME_ES是指所有数据段中的拟合误差最大的数据段;转折点斜率变化参数μ是指在筛选数据趋势点时所指定的斜率变化门限值;数据趋势点时间范围参数ρ是指在筛选数据趋势点时所指定的时间范围门限值;
S2,对查询序列Q进行CSTP分割,并进行多级局部特征表示;包括步骤如下:
a.使用现有技术CSTP算法,对查询序列Q进行分割,找出并标记查询序列Q的分割点,获得的分割点将查询序列Q分为长度不等的若干段,利用所述若干段的相关信息对该查询序列Q进行降维近似表示,具体的表示方式为:把每一段用两个值来表示,第一个值是这一段所包含的原始数据点值的平均值,第二个值是这一段包含的最后一个数据点在查询序列Q中的位置下标;
b.对查询序列Q进行多级局部特征表示,衡量分割点对时间序列波动程度的影响,衡量的方式为:该分割点所对应的原始数据点的值与查询序列Q所包含的所有数据点值的平均值的差的绝对值;该绝对值即为该分割点对应数据点与查询序列Q的平均值所在水平线的竖直距离;以此作为分割点的权值,并对分割点按照其权值由大到小的顺序进行排序;依次取出排序后的分割点,假设当前取出的分割点为A,则A跟查询序列Q的分割点中,与A左邻的分割点构成前一段,跟与A右邻的分割点构成后一段,由分割点A划分的前一分段和后一分段组成了该分割点的一个局部特征,以此类推,用所有分割点对应的局部特征表示查询序列Q;
S3,对时间序列流数据以滑动窗口的方式进行数据扫描,扫描数据的同时,将滑动窗口内的子序列W进行多级局部特征表示,当前滑动窗口内包含的数据点序列为窗口子序列W;对时间序列流数据以滑动窗口的方式进行数据扫描,扫描数据的同时,将滑动窗口内的子序列W进行多级局部特征表示,包括步骤如下:
d、将滑动窗口的大小设定为与查询序列Q的长度相等,即W的序列长度与Q的序列长度相等,逐个匹配查询序列Q与时序流数据上的窗口子序列W;
e、将窗口子序列W按照查询序列Q的表示方式进行相应的映射,即按照查询序列Q排序后的分割点及相应下标,将窗口子序列W表示为由多个局部特征组成的分段表示,具体是指:设定查询序列Q=(q0,q1,q2,…,qi,…,qn),窗口子序列W=(w0,w1,w2,…,wi,…,w n),经过CSTP算法分割表示后,Q=(cr0,cr1,cr2,cr3,cr4)=(q0,q5,q12,q20,qn),则W根据Q的分割点直接映射为:W=(cr0,cr1,cr2,cr3,cr4)=(w0,w5,w12,w20,wn);
假设按照权重排序后的分割点顺序为:(cr2,cr3,cr1),cr2分割点对应的局部特征为:{qv2,cr2,qv3,cr3},cr3分割点对应的局部特征为:{qv3,cr3,qv4,cr4},cr1分割点对应的局部特征为:{qv1,cr1,qv2,cr2},则Q的多级局部特征表示为:Q={qv2,cr2,qv3,cr3,qv3,cr3,qv4,cr4,qv1,cr1,qv2,cr2},W根据Q的表示映射为W={wv2,cr2,wv3,cr3,wv3,cr3,wv4,cr4,wv1,cr1,wv2,cr2};
S4,对多级局部特征表示后的查询序列Q和窗口子序列W进行下界距离计算,若下界距离大于距离阈值DT,则忽略该窗口子序列 ,窗口继续滑动,否则,进入步骤S5;
S5,计算查询序列Q和窗口子序列W的实际距离,若实际距离大于距离阈值DT,则判定为不相似,否则,则判定为相似,将窗口子序列W添加到结果集中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810845200.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据比较方法及装置
- 下一篇:一种基于概率分布的异常数据处理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置