[发明专利]一种融合趋势特征的时间序列符号聚集近似表示方法在审
申请号: | 201911407029.0 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111143442A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 余宇峰;万定生;朱跃龙;王继民;邓劲柏 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 趋势 特征 时间 序列 符号 聚集 近似 表示 方法 | ||
本发明公开了一种融合趋势特征的时间序列符号聚集近似表示方法;融合趋势特征的时间序列近似表示方法包括如下步骤:时间序列数据获取;时间序列数据预处理;时间序列特征分割;时间序列统计特征提取与符号化表示;时间序列的趋势特征提取与符号化表示;融合趋势特征的时间序列符号表示及相似性度量。本发明将时间序列的趋势特征信息和统计特征信息相结合,形成一种新的、能兼顾时间序列统计特征和趋势特征的符号聚集近似表示方法,在不损失序列特征信息的前提下,将时间序列从高维空间映射到低维空间。该方法不仅比传统时间序列表示方法具有更好的下界密封性,还能获得更好的分类和聚类效果,从而更好地表示具有不同形态特征的时间序列。
技术领域
本发明公开了一种融合趋势特征的时间序列符号聚集近似表示方法,涉及时间序列数据挖掘领域。
背景技术
时间序列数据(Time Series,TS)是一类常见的多维复杂类型数据,它客观记录了观测系统随时间次序而变化的、在各观测时刻点的重要信息。时间序列数据具有海量性、高维性、复杂性(噪声、非结构化、时间轴伸缩、线性漂移及不连续点)等特点,并隐含着观测系统具有的一些特定规律和潜在特性。时间序列数据挖掘作为数据挖掘领域十大挑战性研究问题之一,正受到国内外越来越多的研究者关注,并被广泛应用于相似性查找、模式挖掘和周期检测等数据挖掘任务。
时间序列是一种典型的高维数据,直接在原始时间序列上进行数据挖掘对算法性能和后续的结果分析带来了巨大的挑战和考验。特征表示采用变化的数据形式描述原时间序列,并尽可能保留原始时间序列的特征信息,是一种流行的时间序列数据降维方法。常用的特征表示方法如分段线性近似、分段聚集近似(Piecewise Aggregate Approximation,PAA)、符号聚集近似方法(Symbolic Aggregate approXimation,SAX)等,采用符号对时间序列分段进行近似表示方法构造出低维序列,提高了后续挖掘与分析的精度与效率。
SAX具有快速降维、高效率查询等优点,但也容易导致原始序列内部的趋势特征信息的丢失。尤其在数据压缩比较大的情况下,序列均值所代表的数据点就越大,其描述数据序列信息的能力就越弱,因而无法有效地对序列进行表征。
发明内容
本发明针对上述背景技术中的缺陷,提供一种融合趋势特征的时间序列符号聚集近似表示方法,更好地表示具有不同形态特征的时间序列。
为实现上述目的,本发明采用的技术方案如下:一种融合趋势特征的时间序列符号聚集近似表示方法,包括以下步骤:
获取时间序列数据;
对时间序列数据进行预处理操作,得到预处理后的时间序列数据;
将预处理后的时间序列数据定长分割为w段子序列段;
提取子序列段的统计特征信息:采用符号聚集近似表示方法SAX对时间序列的统计特征信息进行符号化表示;
提取子序列段的趋势特征信息:分别计算子序列段的趋势距离因子和趋势形态因子,对时间序列的趋势特征信息进行符号化表示,并定义趋势特征信息之间的距离度量;
融合趋势特征:将时间序列的趋势特征信息符号化表示方法融合时间序列的符号聚集近似表示方法中,得到新的时间序列表示方法TFSAX,并定义融合趋势特征的时间序列符号化距离度量。
进一步的,提取子序列段的趋势特征信息具体包括以下方法:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911407029.0/2.html,转载请声明来源钻瓜专利网。