[发明专利]建立潮流状态调整的并行深度强化学习模型的方法及系统有效
申请号: | 202110286364.0 | 申请日: | 2021-03-17 |
公开(公告)号: | CN113517684B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 王甜婧;汤涌;郭强;黄彦浩;陈兴雷;文晶;李文臣;宋新立;李芳 | 申请(专利权)人: | 中国电力科学研究院有限公司 |
主分类号: | H02J3/00 | 分类号: | H02J3/00 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽楼 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建立 潮流 状态 调整 并行 深度 强化 学习 模型 方法 系统 | ||
1.一种建立潮流状态调整的并行深度强化学习模型的方法,其特征在于,包括:
建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程;
根据所述潮流状态、动作、策略、奖励和回报,定位调整目标、筛选可动作设备、计算发电机的动作量,所述调整目标包括不同的断面合集;
根据所述调整目标、可动作设备以及发电机的动作量,建立考虑N-1静态稳定约束的潮流状态调整的并行深度强化学习模型;
建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程,包括:
根据当前各线路的有功功率和发电机的有功功率,确定潮流状态空间为:
其中,s为潮流状态空间,PLi和PGi分别为第i条线路和第i个发电机的有功功率,nL为线路的数量,nG为线路和发电机的数量;
通过动作发电机使潮流满足约束,确定动作空间为:
其中,A为动作空间,Gi为第i个发电机的标志位;
根据以下公式,确定策略,所述策略是一种动作的条件概率分布p:
π(a|s)=p(a|s)
其中π为策略,a为动作;
建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程,还包括:
在当前潮流越限的情况下,确定当前潮流越限的奖励为:
其中,r为当前潮流越限的奖励,λR为奖赏系数,和分别为第i条线路的当前功率和功率上限,和分别为第i个节点的当前电压和电压下限;
建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程,还包括:
根据随着时间积累的奖励,确定回报:
其中,G为回报,t为时间,γ为衰减系数,τ为一个时间周期。
2.根据权利要求1所述的方法,其特征在于,建立潮流状态、动作、策略、奖励和回报,形成马尔科夫决策过程,还包括:
在N-1潮流越限的情况下,确定经过N-1计算后,得到N个缺失一个元件的潮流,根据N个潮流的越限情况,统计每条线路的累计越限数:
其中,NL为每条线路的累计越限数,为第i条线路的累计越限数;
根据所述每条线路的累计越限数以及线路总数,确定累计越限总数:
其中,NZL为累计越限总数,nL为线路总数;
要使潮流满足N-1约束,将每次调整后的累计越限总数计入奖励,体现当前的越线情况,确定累计越限总数奖励为:
其中,r1为累计越限总数奖励,和Ninit分别为第j次调整后的越限数和初始越限数;
将每条线路在每次调整后的越限转移情况计入奖励,体现当前状态的越限情况,确定越限转移情况奖励为:
其中,r2为越限转移情况奖励,为第j条线路的越限数,为第j条线路的初始越限数,和分别为初始越限数和当前增加越限数;
将越限功率计入奖励,体现当前的越限程度,确定越限功率奖励为:
其中,r3为越限功率奖励,和分别为第j次调整后第i条越限线路的越限功率和越限线路数;和分别为初始状态下第i条越限线路的越限功率和越限线路数;
根据所述累计越限总数奖励、越限转移情况奖励以及越限功率奖励,确定N-1潮流越限的奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司,未经中国电力科学研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110286364.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高频线路板的制作工艺
- 下一篇:吸力式桩基础的安装精度控制方法