[发明专利]深度分层策略下的多源驱动量化投资模型在审
申请号: | 201910597015.3 | 申请日: | 2019-07-04 |
公开(公告)号: | CN110322351A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 汤春明;朱雯彦;于翔 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06N3/08;G06Q40/06;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300387 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本方法涉及一种深度分层策略下的多源驱动量化投资模型。本方法从多源驱动的角度出发,提出了一种基于先验知识的特征组合,并设计了一个深层次的策略模型,用来在股票市场中辅助交易人员追求利益最大化。该模型包括实现了时间序列趋势判断的预判断模块,以及执行交易动作的操作模块。对于预判模块,我们设计了一个带有回归约束的生成判别网络(RC‑WGAN)来完成任务。对于操作模块,为了使机器学习更加符合人类学习过程的特点,并使其具有控制风险的能力,我们设计了一种基于深层确定性梯度策略(DDPG)的网络结构,它能够通过和市场环境互动,逐步进化,最终形成可以辅助交易者的连续仓位控制决策。我们使用道琼斯工业指数和上海证券交易所指数进行训练和测试。结果表明,该方法在投资回报率和鲁棒性方面具有良好的表现。 | ||
搜索关键词: | 多源 操作模块 辅助交易 驱动 分层 量化 利益最大化 策略模型 工业指数 机器学习 交易动作 控制决策 趋势判断 时间序列 市场环境 特征组合 网络结构 先验知识 学习过程 鲁棒性 预判断 仓位 互动 投资 预判 确定性 进化 测试 回归 网络 表现 | ||
【主权项】:
1.一种深度分层策略下的多源驱动量化投资模型,包括以下步骤:A.多源特征提取:在考虑股票市场多源驱动特性的基础上,为了对表层特征进行充分抽象提取、减少特征间相关性和冗余度,本方法设计使用了多源特征F={P,B,Se,I,N}来表征市场环境;其中P表示使用RC‑WGAN网络生成的时序预测因子,B表示行为学因子,定义如式(1),我们取第t日成交量Vt与l天内均值的比值和收盘指数PCt与l天内均值的比值,表示当前l下的波动率,选择自定义时间尺度集合L中的多个l组成波动特征序列,间接反应参与者的投资热情和市场资金均衡情况
Se表示市场季节性因子,定义如式(2),u表示季节长度,α表示季节更迭间隔,使用季节内成交均量进行环比,以反映市场季节特性;
I表示传统技术指标,实验中使用趋势指标IMACD(12,26,9)、随机指标IKDJ(9,3,3)和顺势指标ICCI(14)作为第t日技术指标,这三项指标技术优势互补且相关性较小,它们各自的参数为中短期交易中的经验值;N表示外围环境因子,定义如式(3),通常情况下,国家政策的颁布会引起股市涨跌,表现为当天或次日股价的异常波动;对于日交易,虽然当天异常情况无法提前判断,但是可以通过开盘价PO的突变对前天非交易时段的异常进行分析,从而调整后续策略;N=(POt‑PCt‑1)/POt (3)B.预判模块:本方法提出回归约束RC模式下的WGAN算法得到预测日收盘指数PCt;使用对时序数据处理性能良好的LSTM模型连接多层感知器MLP作为RC‑WGAN基本结构;将Z={PC1,PC2,......,PCT‑D}作为生成器generator的输入,生成器将会根据这些历史数据推演伪造出后续时序数据
其中T是时间序列的总长度,D是预测天数的长度,并将其与历史数据顺序连接形成一组完整序列作为输出![]()
判别器discriminator的输入为真实数据Xreal={PC1,PC2,......PCT‑D,PCT‑D+1,......,PCT}和伪造数据Xfake,它的任务是最大程度地区分Xreal和Xfake对应的概率分布Pr和Pf;在训练的过程中加入两个改进措施:1.判别器训练N次后再训练生成器;2.为生成器损失函数添加回归损失,如式(4);LG‑MSE=λ1LG+λ2LMSE (4)这里LG为传统WGAN生成器损失,LMSE为回归损失,λ1,λ2为损失系数;其中,
xreal和xfake是Pr和Pf分布中的随机样本;C.操作模块:使用深度强化学习方法之一的深层确定性梯度策略(DDPG)作为算法基础;强化学习是一种通过与环境相互作用来实现目标的算法,即在状态S下采取行动A来获得奖励R,通过最大化R找到最优策略;本方法将市场环境特征F={B,Se,I,N,P}以及资金量M作为状态S,仓位作为动作A,则第t天的状态和动作分别表示为st,at;根据收益情况设计使用奖励函数ρ如(6);ρ(st,at)=η1·rmarket+η2·ragent (6)其中rmarket作为agent与大盘之间收益比较的奖惩项,而ragent作为agent本身收益衡量的奖惩项,比例系数为η1和η2,rmarket和ragent分别定义如(7)和(8);![]()
其中,magent(t)和mmarket(t)分别表示第t日agent与market资金量;此模块中包含两个经过设计的网络,一个名为演说家Actor的网络负责在状态S下选择动作A,另一个名为评论家Critic的网络用于估计动作值函数Q(S,A);在用于根据当前S生成A的Actor网络中,P不需要和{B,Se,I,N,M}一同进行初级特征提取,可以直接贡献于高层仓位策略;对于Critic网络而言,为了正确估算当前状态S下采取动作A所对应的Q值,对属于同一层特征的{B,Se,I,N,M},需要经过多层网络处理才能得到正确的Q(S,A)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910597015.3/,转载请声明来源钻瓜专利网。