[发明专利]一种基于数据特征的时间序列流数据快速搜索方法有效
申请号: | 201810845200.5 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109325060B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 展鹏;蒯硕;李学庆;丁一明;胡宇鹏 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 杨树云 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 特征 时间 序列 快速 搜索 方法 | ||
本发明涉及一种基于数据特征的时间序列流数据快速搜索方法。包括:S1,参数预设:距离阈值DT;S2,对查询序列Q进行CSTP分割,并进行多级局部特征表示;S3,对时间序列流数据以滑动窗口的方式进行数据扫描,将滑动窗口内的子序列W进行多级局部特征表示;S4,对查询序列Q和窗口子序列W进行下界距离计算,若下界距离大于距离阈值DT,则忽略该片段,窗口继续滑动,否则,计算查询序列Q和窗口子序列W的实际距离,若实际距离大于距离阈值DT,则判定为不相似,否则,则判定为相似。本发明满足了时间序列流数据处理的一遍式扫描要求和实时响应要求。在保证搜索结果准确的前提下,减少了计算代价,节省了搜索计算时间。
技术领域
本发明涉及一种基于数据特征的时间序列流数据快速搜索方法,尤其涉及了一种基于数据特征的时间序列流数据高效相似性搜索方法,属于大数据分析与数据挖掘的技术领域。
背景技术
时间序列是指一种随着时间变化而形成的有序数据序列,简称时序。它反映了某个事务或事件随着时间变化的状态。通常提到的时序是指通过等间隔时间取样形成的具有实数值的有序数据序列。而其中有些时序信息不仅与某一时刻密切相关,从整体上看数据信息随时间连续性不断的产生,具有流的特点,因此被称为时间序列流数据,例如卫星在轨时间序列流数据、制造业传感数据,在线交易数据等等。
近年来,对时间序列流数据的管理成为了一个研究热点,因为时间序列流数据的应用范围十分广泛,传感器网络监测,移动对象搜索和追踪,网络交通分析等都需要持续监测时间序列流。面对海量、高维的时序数据,对其进行数据挖掘,获取数据背后相应的知识,是一个具有挑战性的问题。对时间序列流数据进行相似性搜索,是在时间序列流数据中找出所有与查询时序Q距离不超过用户定义阈值的时间序列片段。作为一个数据挖掘中的基础问题,相似性搜索是对时序数据进行分析的一项基本技术,也是为后续分类、聚类、模式匹配等数据挖掘方法提供帮助的一个基本工作。
目前对时间序列进行的相似性搜索大多应用于时间序列数据库文件,在其中寻找与查询时序Q最具有相似特征的时序R。采取的搜索技术为,首先对时间序列进行降维表示,降维后的时序数据需满足下界定理(降维空间中两条时序的距离小于等于其真实距离)。然后将降维后的时序数据插入到已知的索引结构中,通过索引进行相似性搜索。降维方法包括DFT、DWT、PAA、APCA等,索引结构有R树及其变种等。对时间序列的相似度度量函数则主要包括Lp-norms、DTW、最长公共子串LCSS等。
然而,相比于传统的时间序列数据库数据,时间序列流数据具有连续和更新频繁的特点,使得维护索引的代价变大,因此之前应用于传统时序数据库的相似性搜索方法,不能直接应用于时序流数据。因为更新频繁,时间序列流数据不能全部存储于内存或硬盘,而是源源不断的到来,因此对时序流数据的处理提出了“一遍式扫描”和实时响应的要求。
发明内容
针对现有技术的不足,本发明提供了一种基于数据特征的时间序列流数据快速搜索方法;在满足时间序列流数据“一遍式扫描”处理的基础上,采用相应的优化策略,大幅度减少搜索时间,以达到实时响应的要求。
本发明所要解决的技术问题是:如何随着时间序列流数据源源不断的到来,找出其中与查询时序Q相似的子序列,即满足与查询时序Q的距离在用户定义阈值范围内的时序片段。在处理过程中,对不相似的片段忽略,相似的片段标记。
本发明以滑动窗口思想为基本框架,将查询时序Q在时间序列流数据中的搜索分割为Q与每个滑动窗口内子序列的比较,满足了时间序列流数据“一遍式扫描”的处理特点,并将子序列匹配转换为全序列匹配。结合CSTP线性分割方法,找出时序分割点,并对分割点按照其对时序波动影响程度的大小来赋予权值。将分割点扩展为局部特征,按照分割点权值由大到小的顺序,用局部特征对时序进行表示,并计算相应局部特征的下界距离,满足非漏报要求,保证结果准确。对距离进行累加和判断,及早终止计算,缩减搜索空间,减少计算代价,从而达到减少搜索时间的目的。考虑到应用的广泛性,本发明选择欧氏距离作为时序相似度度量函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810845200.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据比较方法及装置
- 下一篇:一种基于概率分布的异常数据处理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置