[发明专利]一种基于深度强化学习的水文预报模型参数率定方法有效
申请号: | 202110361225.X | 申请日: | 2021-04-02 |
公开(公告)号: | CN113255206B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 胡鹤轩;吴雨霏;胡强;朱跃龙;张晔;胡震云 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/092;G06F113/08;G06F111/06 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 楼然 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 水文 预报 模型 参数 方法 | ||
1.一种基于深度强化学习的水文预报模型参数率定方法,其特征在于,包括以下步骤:
步骤1、选定水文预报模型及确定所需率定参数;所述的水文预报模型以降雨及蒸发时间序列作为输入,以预报流量的时间序列作为输出;
步骤2、建立水文预报模型参数率定的强化学习模型;所述的强化学习是指智能体Agent与环境交互学习的过程,其强化学习的关键三要素为状态空间、动作空间和奖励值函数;
步骤3、应用深度强化学习方法DQN,优化水文预报模型率定的参数;
在所述步骤1中,选定水文预报模型及确定若干率定参数的过程包括:
根据流域特性选取不同的水文预报模型,确定该水文预报模型所需要率定的参数wi,i=1,2,...,N,N为水文预报模型所需率定参数的个数;
每个参数的取值范围:
其中,分别为第i个率定参数的最小值和最大值;
所述步骤2中建立水文预报模型参数率定的强化学习模型,其过程包括:
2-1)确定强化学习的状态空间:
定义t时刻强化学习状态值为水文预报模型的数个率定参数组成的一维向量st;
其中为当前t时刻水文预报模型率定参数值;
t时刻参数值变化具有两种可能:增大或减小;设参数增大或减小幅度均为Δi,则t+1时刻参数值可能为或
2-2)确定强化学习的动作空间:
定义强化学习动作空间A为各个率定参数变化的所有可能情况:
其中,2N为强化学习动作空间中动作的个数;矩阵A的每一行为选定的动作,即t时刻动作值at的可能值;
2-3)确定强化学习的奖励值函数:
设为M个时段的实测的流量值,其中为第i个时段的实测流量值;
根据t时刻状态t+1时刻通过水文预报模型获取预测流量序列分别为:
其中分别为第i个时段的t时刻、t+1时刻预报流量值;
定义t时刻的均方根误差为RMSt,t+1时刻的均方根误差为RMSt+1:
定义在t时刻状态st下执行动作at到达t+1时刻状态st+1获得的奖励值rt(st,at,st+1):
其中,C1为常数,大于0;C2为常数,小于0;C3为常数,大于0;
所述步骤3中应用深度强化学习方法DQN,优化水文预报模型率定的参数,其过程包括:
根据所确定的强化学习的关键要素,执行下述深度强化学习方法DQN:
输入:初始化经验池D容量为N;
使用随机权重θ初始化动作值网络Q;
使用权重θ′=θ初始化目标动作值网络
过程:
For 1,M do
初始化状态s1;
For t=1,T do
根据概率ε选择一个随机动作at,1-ε概率选择at=argmaxa Q(st,a;θ);
执行动作at,并获取奖励rt,得到下一状态st+1;
将(st,at,rt,st+1)保存在经验池D中;
当经验池D达到一定数量时从中随机取出若干组(st,at,rt,st+1)为mini-batch;
设置:
执行一个梯度下降步骤(yj-Q(sj,aj;θ))2更新动作值网络参数θ;
每C步重置目标动作值网络
End For
End For
输出:最优状态:
当DQN算法优化曲线达到收敛状态,则此时总奖励值处于轻微抖动状态,最优率定的参数值为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110361225.X/1.html,转载请声明来源钻瓜专利网。