[发明专利]金融数据的压缩和解压方法、装置以及存储介质有效
申请号: | 201910539301.4 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110289862B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 张杨;李亮亮;张昱;曹良城 | 申请(专利权)人: | 成都有据量化科技有限公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30;G06N3/044;G06N3/0464;G06Q40/00 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 刘冀 |
地址: | 610000 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 数据 压缩 解压 方法 装置 以及 存储 介质 | ||
本申请公开了一种金融数据的压缩和解压方法、装置以及存储介质。其中,金融数据的压缩方法,包括:获取待压缩的时序金融数据;将时序金融数据转换为与预先设置的卷积模型对应的形式的张量;以及利用卷积模型,对张量进行压缩,生成预定长度的压缩特征向量,其中压缩特征向量中包含的特征为去时序化特征。通过可逆的标准化方法,将时序金融数据转化为标准化时序金融数据,或将标准化时序金融数据还原为时序金融数据。通过卷积神经网络和全连接网络对标准化时序金融数据进行压缩,然后通过全连接网络对压缩后的数据进行解压。此外,还通过引入正则化方法提升模型泛化能力的去时序化特征提取,以及通过限制正则化方法的使用减少模型信息损失。
技术领域
本申请涉及金融数据处理领域,特别是涉及一种金融数据的压缩和解压方法、装置以及存储介质。
背景技术
金融数据,涉及金融领域的股票、期权、期货以及每个交易日从开盘到收盘的数据记录。原始的金融数据记录通常为毫秒级,主要记录内容为特定品种某一时刻的成交量、成交价,更详细的还会有成交价附近的十档挂单数据。该类数据历史基数、日增量都相对庞大,如此海量的历史数据和日增量数据对于数据存储与分析产生了巨大的挑战。
在金融交易发展的过程中,随着人们对数据的研究越来越深入,对金融模型的探索也越来越精细,除前述原始金融数据记录以外,还有数百种衍生指标。这些衍生指标各不相同,但大体和原始金融数据一样,属于时序数据,如量比、波动率、MACD、KDJ、BOLL等等。由于这些指标各有侧重,指标本身只能反映原始金融数据的部分信息,且随时间不停积累,不同的时间粒度结果也不相同,为了保证数据完整可靠,通常不得不进行冗余存储。因此非但没有减轻金融数据的存储压力,反而使相关从业人员与公司不得不在保留原始数据的同时,存储和维护更多的衍生指标数据,从而进一步加大了数据的存储和分析的复杂度。
另一方面,传统金融工程方法对金融数据的分析处理大体可以分为静态和动态两种。其中,静态分析主要研究在不同时间切片上的指标、价格之间的相关性,不考虑时间切片之间的先后关系,按时间切片将不同时间点的样本独立看待。这样处理的好处是可以方便地将分析目标转化为传统机器学习理论中的分类、聚类问题,进而充分利用传统机器学习领域的研究进展。然而其缺点也是明显的:其一,静态分析方法割裂了时间顺序的关联性,即使目标维度是同一品种在不同时间点上的同一特征,仍假设其相互独立,这种假设尤其在金融领域上显然是站不住脚的;其二,静态分析方法引入了大量的主观量化指标,正如前文所说,这些指标本身只能反映原始金融数据的部分信息,因此研究者要么不得不提高算力引入大量指标进行分析,要么只能忍受不确定的信息流失逐批地对少量指标进行分析,而且永远没人知道自己是否收集到了足够齐全的指标集。动态分析则引入了时间序列概念,参考指标在时间序列上的先后关系,研究序列的变化和特性,这种方法大多基于线性回归分析及其变种,且以单因子分析为主,难以处理复杂模型。
由于近几年深度神经网络的兴起,许多研究人员也将目光投向了利用深度神经网络对时序金融数据进行动态分析领域,此类研究主要集中在递归神经网络领域,通过随时间不停变化的输入数据,预测输出某一指标或金融产品价格在下一时刻的变化。神经网络可以同时响应多个时间序列的输入,然而由于金融数据的复杂性以及递归神经网络自身的缺点,将递归神经网络在语音识别、自然语言处理领域的成功经验移植到金融领域的尝试十分艰难,且成果有限。事实上,成功的递归神经网络应用离不开海量的高质量样本,语音和语料的高度重复性才是神经网络在语音识别和自然语言处理领域大放异彩的关键,而金融数据因为行业自身的发展以及人类社会科技、商业模式等方面的进步,想要找到外部环境和内在价值逻辑变动高度相同的两个金融数据样本几乎是不可能的。
因此,传统金融工程方法对金融数据的分析处理主要有两方面问题:其一,存在时序数据特性与分析手段灵活性的悖论——不引入时序相关性则有悖应用场景,引入时序相关性则会使分析手段变得单一,无法充分利用传统机器学习领域的研究进展;其二,存在特征主观性强与信息完整性难以保障的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都有据量化科技有限公司,未经成都有据量化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910539301.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半精度压缩感知采样方法
- 下一篇:译码设备、方法及信号传输系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置