[发明专利]适用于文化科技融合领域时间序列数据的特征提取方法在审
| 申请号: | 202010453118.5 | 申请日: | 2020-05-26 |
| 公开(公告)号: | CN111625578A | 公开(公告)日: | 2020-09-04 |
| 发明(设计)人: | 王妍;田玲玲;刘迪;刘德伟;谭爱平 | 申请(专利权)人: | 辽宁大学 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F40/216 |
| 代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 罗莹 |
| 地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 适用于 文化 科技 融合 领域 时间 序列 数据 特征 提取 方法 | ||
1.适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于:其步骤为:
步骤1)、从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;
步骤2)、数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据;宏观数据标准化后,计算样本与行业标准数据的相似度,将归一化后的相似度作为D-S证据理论的输入进行证据融合,得类特征;
步骤3)、设已获得标准时间序列的最佳shapelet集合,计算微观数据样本与各shapelet的距离,得趋势特征;
步骤4)、文本数据,先用词袋模型获得高频词汇集,再使用改进的TF-IDF对该词汇集进行二次过滤,获得热点词汇;
步骤5)、若有新数据则用滑动窗口重新执行步骤1-4;无新数据则停止。
2.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于:
所述的步骤1)中,具体方法如下:
1.1)获取源数据:从企业数据库或者相应政府的公共数据库获取时间序列数据;
1.2)将数据根据数据类型进行分类,分为数值型时间序列数据和文本型时间序列数据;
1.3)针对新来的数据则利用滑动窗口原理形成新的分类数据源。
3.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于:
所述的步骤2)中,具体方法如下:
2.1)将数值型时间序列数据数据根据时间粒度进行分类,分成大时间粒度的宏观数据Tg、以及小时间粒度的微观数据Ts;其中,宏观数据包括多个来源的时间序列数据,即用从不同角度反映企业经营状况的财务数据和市场数据,微观数据只包含一类时间序列数据,即衡量企业经营能力的最主要指标数据;
2.2)对于宏观数据,将数据利用z-规范化进行标准化,再计算样本与根据波士顿矩阵分类的行业及行业标准数据之间的欧式距离,公式为
其中m为一条时间序列的数据个数,δx为X的方差,δy为Y的方差、μx为X的均值、μy为Y的均值,X指的是标准化后的样本数据,Y指的是标准数据,x指的是任一条X时间序列的某一时刻的具体数值,y则是任一条Y时间序列的某一时刻的具体数值;
2.3)对数据进行归一化处理,将归一化后的距离权重作为D-S证据理论矩阵的输入,然后根据D-S证据理论原理进行证据融合以得到新的综合支持度ωi,i指行业第i个分类;
2.4)根据得到的新的综合支持度,得到宏观层次上样本所属类别的综合权重,可以衡量时间序列的分类特征。
4.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于:
所述的步骤3)中,具体方法如下:
3.1)对于微观时间序列数据,假设已经获得标准数据的k个shapelet记为S=s1,s2,...sk,且si长度为Li;循环计算这k个shapelet与样本时间序列的距离,这一距离定义为
disti=min(dist(Sub(Ts)Li,si))(i=1,2...k)
其中Sub(Ts)Li指的是时间序列Ts中长度为Li的子序列;
3.2)计算权重ui=Li/(L1+L2+...+Lk);
3.3)用得到的权重乘以距离的倒数再相加,根据距离的意义和shapelet的性质则可以得到微观数据的趋势特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010453118.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环境监测用自主分类土壤取样装置
- 下一篇:一种剪压两用液压钳





