[发明专利]基于大规模金融投资时序数据实现并行挖掘的方法、装置、处理器及其计算机可读存储介质在审
申请号: | 202111528305.6 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114139071A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 俞枫;苑博;袁峻峰;陈海枫 | 申请(专利权)人: | 国泰君安证券股份有限公司 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06K9/62;G06Q40/06 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 200041 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 大规模 金融 投资 时序 数据 实现 并行 挖掘 方法 装置 处理器 及其 计算机 可读 | ||
1.一种基于大规模金融投资时序数据实现并行挖掘的方法,其特征在于,所述的方法包括以下步骤:
(1)根据金融数据提供商提供的多类型金融数据获取金融时序数据集;
(2)根据数据因子的数据规模,按照不同批次将同一类型的金融时序数据集进行分类;
(3)将分类后的金融时序数据集分发到对应的计算节点,等待后续处理;
(4)对所述的金融时序数据集进行数据预处理,获取时序因子矩阵基础数据;
(5)根据当前金融投研情景的需要,按照预设划分条件将时序因子矩阵基础数据拆分为子时序数据进行特征处理,以获取所有金融时序因子的特征矩阵;
(6)使用K-Means聚类算法对所有时序因子特征进行聚类计算,并确定最佳的聚类数量;
(7)根据金融投资目标时序因子所在的簇,获取相关时序因子集;
(8)将金融投资目标时序因子与所述的相关时序因子集进行相似性排序,并根据排序结果得到金融投资目标时序因子相关因子集;
(9)将所述的金融投资目标时序因子相关因子集用于后续金融投资。
2.根据权利要求1所述的基于大规模金融投资时序数据实现并行挖掘的方法,其特征在于,所述的步骤(1)具体为:
获取包括但不限于经济、行业、金融市场、另类数据的金融时序数据集。
3.根据权利要求1所述的基于大规模金融投资时序数据实现并行挖掘的方法,其特征在于,所述的步骤(4)具体为:
采用缺失值补齐法或者H-P滤波平滑处理法的方式对所述的金融时序数据集进行数据预处理,
其中,所述的缺失值补齐具体为:
对当前采集到的金融时序数据集中存在数据缺失的数据所在的位置进行填空补齐。
4.根据权利要求3所述的基于大规模金融投资时序数据实现并行挖掘的方法,其特征在于,所述的H-P滤波平滑处理法为一种分解信号的低频趋势与高频部分的滤波方法,具体通过以下公式进行处理:
yt=gt+ct;
其中,yt为原时序信号,gt为低频趋势信号,ct为高频的周期或噪音信号;通过最小化滤波后信号g与原信号y的误差,以及限制平滑信号的二阶差分求解,该H-P滤波平滑处理法优化函数如下:
5.根据权利要求4所述的基于大规模金融投资时序数据实现并行挖掘的方法,其特征在于,所述的步骤(5)具体包括以下步骤:
(5.1)以预设的划分条件对所述的金融时序数据集进行数据集的划分;
(5.2)当所述的金融时序数据集中的单一因子数据量超过预设阈值时,将所述的时序因子矩阵基础数据拆分成为子时序数据;
(5.3)将所述的子时序数据分发到计算节点进行特征处理,以获取所有金融时序因子的特征矩阵。
6.根据权利要求5所述的基于大规模金融投资时序数据实现并行挖掘的方法,其特征在于,所述的划分条件包括但不限于按照出现频率、时间期限以及经济周期进行数据集的划分。
7.根据权利要求5所述的基于大规模金融投资时序数据实现并行挖掘的方法,其特征在于,所述的特征处理具体包括:
将所述的子时序数据从描述统计值、中位数、最大值、均值、标准差、方差、偏度、峰值、变异系数、趋势特征、局部极值位置、分段线性拟合特征值、自回归各阶系数、相邻熵值间的比值、一阶差分绝对值的特征分类进行对应的特征处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国泰君安证券股份有限公司,未经国泰君安证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111528305.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种聚甘油乳化剂的卸妆油及制备方法
- 下一篇:一种轨道小车的双向伸缩装置