[发明专利]基于PPO算法的光伏发电太阳能电池板角度自动调整方法在审
申请号: | 202211020615.1 | 申请日: | 2022-08-24 |
公开(公告)号: | CN115617083A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 马明;吕清泉;王定美;张睿骁;张珍珍;张健美;高鹏飞;张彦琪;赵龙;沈渭程;周强;李津;张金平;刘丽娟;郑翔宇 | 申请(专利权)人: | 国网甘肃省电力公司电力科学研究院;国网甘肃省电力公司;国家电网有限公司 |
主分类号: | G05D3/20 | 分类号: | G05D3/20;G06N3/04;G06N3/08 |
代理公司: | 北京达友众邦知识产权代理事务所(普通合伙) 11904 | 代理人: | 徐银辉 |
地址: | 730000 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ppo 算法 发电 太阳能 电池板 角度 自动 调整 方法 | ||
1.基于PPO算法的光伏发电太阳能电池板角度自动调整方法,其特征在于:
步骤1:根据传感器获取影响太阳能电池板发电效率的影响因素;
步骤2:根据深度强化学习范式,利用强化学习PPO算法对太阳能电池板自动调整电压过程进行建模;
步骤3:对太阳能电池板发电过程设置一个对应的强化学习奖励函数;
步骤4:训练一个根据环境因素自动调整太阳能电池板角度的PPO算法模型。
2.根据权利要求1所述的基于PPO算法的光伏发电太阳能电池板角度自动调整方法,其特征在于:步骤1中,所述的根据传感器获取影响太阳能电池板发电效率的影响因素,包括云团大小及厚度、光照辐射度、天气状况、太阳能电池板与太阳光之间的夹角,以及太阳能电池板水平方向、竖直方向的角度控制电压两个因素,且将获取的太阳能电池板发电影响因素作为强化学习的状态空间输入量,同时将太阳能电池板的调整方向:水平调整[-90°,90°]和竖直调整[-90°,90°]作为动作空间,以太阳能电池板水平竖直方向调节角度对应的电压值作为强化学习智能体模型动作空间的输入量。
3.根据权利要求1所述的基于PPO算法的光伏发电太阳能电池板角度自动调整方法,其特征在于:步骤2中,所述利用强化学习PPO算法对太阳能电池板自动调整电压过程进行建模,是指将太阳能电池板发电影响因素、最终的发电量作为环境,通过深度强化学习技术进行建模,形成智能体与太阳能电池板环境的交互学习模型。
4.根据权利要求1所述的基于PPO算法的光伏发电太阳能电池板角度自动调整方法,其特征在于:步骤3中,所述的对太阳能电池板发电过程设置一个对应的强化学习奖励函数,是指根据影响太阳能发电因素以及发电量设置合理的奖励函数,指导强化学习算法PPO能够根据不同影响因素的影响程度及时的奖励模型,让模型能够收敛。
5.根据权利要求4所述的基于PPO算法的光伏发电太阳能电池板角度自动调整方法,其特征在于:所述的奖励函数是以每分钟获得最大发电量值GP(Generating Capacity)作为主要奖励指标,数学表示为:
R=α*GP+N(0,1)。
6.根据权利要求1所述的基于PPO算法的光伏发电太阳能电池板角度自动调整方法,其特征在于:步骤4中,所述的训练一个根据环境因素自动调整太阳能电池板角度的PPO算法模型,是指结合步骤1、2、3的过程,在计算机硬件资源上进行大规模模型训练,最终形成一套最优的太阳能电池板角度调整的电压控制策略。
7.根据权利要求6所述的基于PPO算法的光伏发电太阳能电池板角度自动调整方法,其特征在于:所述太阳能电池板角度调整的电压控制策略,是在步骤3奖励函数基础上开展PPO算法模型的训练,其中PPO算法模型是一种基于on-policy的强化学习算法,整体由Actor网络和Critic网络两部分组成,所述的训练是指通过智能体和环境的交互最终形成一套PPO算法最大化发电效率的控制策略π(θ),及Actor和Critic网络权重值。
8.根据权利要求7所述的基于PPO算法的光伏发电太阳能电池板角度自动调整方法,其特征在于:所述PPO算法最大化发电效率的过程包括:
PPO算法模型由Actor和Critic两个神经网络组成,分别对应优化强化学习的策略和值函数;
PPO模型首先通过与太阳能电池板控制电压交互学习,并将相关的采样序列保存在缓冲池Buffer中;
PPO算法每隔一个批次采样缓冲池中的采样样本作为网络的输入输出对应太阳能电池板电压值的分布,并从分布中采样得到动作值Action,在更新过程中将原来的策略和新策略限制在个区间范围内,即
其中πnew(θ)是指更新前的策略,πold(θ)是指更新后的策略,At表示优势函数,是指在电压值调整策略下,采取某个控制电压动作后带来的优势值,在本发明主要使用梯度下降方法对Actor和Critic两个网络的权重进行更新,最终得到一套最优控制策略的模型参数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网甘肃省电力公司电力科学研究院;国网甘肃省电力公司;国家电网有限公司,未经国网甘肃省电力公司电力科学研究院;国网甘肃省电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211020615.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型密炼机进料装置
- 下一篇:一种超滤膜及其制备方法和应用