[发明专利]基于强化学习的新能源充电站的优化布置方法在审
| 申请号: | 202310510517.4 | 申请日: | 2023-05-08 |
| 公开(公告)号: | CN116542003A | 公开(公告)日: | 2023-08-04 |
| 发明(设计)人: | 孙伟;杨毅;李奇越;李帷韬 | 申请(专利权)人: | 合肥工业大学 |
| 主分类号: | G06F30/18 | 分类号: | G06F30/18;G06F30/27;G06N3/0464;G06N3/084;G06N3/092;G06Q10/0631;G06Q50/06;G06F111/06;G06F113/04 |
| 代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
| 地址: | 230009 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 学习 新能源 充电站 优化 布置 方法 | ||
1.一种基于强化学习的新能源充电站的优化布置方法,其特征在于,包括以下步骤:
步骤1、搭建新能源充电站系统:
令L=[l1,l2,...,li,...,ln]表示n个位置上新能源充电站的建设状态,若li=-1,表示第i个位置未建设新能源充电站,若li=1,表示第i个位置已建设新能源充电站,且每个位置最多只能建设一个新能源充电站,i=1,2,...,n;
令D=[d1,d2,...,di,...,dn]表示n个位置上新能源充电站分别与配电网变电站的实际距离,di表示第i个位置上的新能源充电站与所述配电网变电站的实际距离;若li=-1,则di=0;
令R=[r1,r2,...,ri,...,rn]表示n个位置上新能源充电站的服务半径,ri表示第i个位置充上新能源充电站的服务半径,若li=-1,则ri=0;
令W=[w1,w2,...,wi,...,wn]表示n个位置上新能源充电站的用电负载,wi表示第i个位置上新能源充电站的用电负载,若li=-1,则wi=0;
令S=[L,D,R,W]表示新能源充电站系统的布置信息;
步骤2、建立新能源充电站系统的强化学习模型,包括:决策体和执行体;其中,所述决策体由深度卷积网络V(θ)组成,θ是深度卷积网络V(θ)的参数集合;所述执行体包含有奖励模块;
步骤3、在新能源充电站系统下训练强化学习模型:
步骤3.1、定义回合数为m,并初始化m=1;
步骤3.2、定义每回合训练次数为t,并初始化t=1;
定义第m回合下第t次训练时的新能源充电站系统的布置信息为初始化第m回合下第t次训练时的n个位置上新能源充电站的建设状态均为1,从而初始化
步骤3.3、所述布置信息输入所述决策体中,并通过深度卷积网络和策略π输出最优动作价值函数其中,是第m回合下第t次训练时的深度卷积网络,是第m回合下第t次训练时的神经网络的参数集合,是第m回合下第t次训练时的最优动作;
步骤3.4、在新能源充电站系统下,所述执行体根据决策体输出的动作价值函数选择最优动作并执行,若所述执行体对第i个位置上新能源充电站的建设状态执行的最优动作则保持第i个位置上新能源充电站的建设状态;若则保改变第i个位置上新能源充电站的建设状态,从而改变新能源充电站的布置信息并输出第m回合下第t+1次训练时的布置信息
步骤3.5、所述执行体的奖励模块通过式(1)-式(5)计算第m回合下第t次训练时的奖励
式(1)-式(5)中,是第m回合下第t次训练时新能源充电站系统与配电网变电站的距离的奖励,是第m回合下第t次训练时新能源充电站系统的用电负载的奖励,是第m回合下第t次训练时新能源充电站系统的服务范围的奖励;Wmax是配电网变电站承受的最大用电负荷,ω是判断新能源充电站系统是否超出用电负载限制的参数,Δ是权重系数;
步骤3.6、所述决策体利用式(6)构建第m回合下第t次训练时的损失函数用于对深度卷积网络进行反向传播并更新第m回合下第t次训练时的参数从而得到第m回合下第t+1次训练时的参数
式(6)中,γ是学习率,是第m回合下第t+1次训练时的新能源充电站系统的布置信息,θ-是目标神经网络参数,k表示θ-的更新时间间隔,若t为k的整数倍或当t=1时,将赋值给θ-,否则,θ-保持不变,是在θ-下处于状态采取动作a时的目标动作价值函数;a表示随机动作;
步骤3.7、将t+1赋值给t后,判断t>C1是否成立,若成立,则结束当前第m回合训练,并得到当前第m回合下最优布置信息并存储在集合Ω中后,执行步骤3.8,否则,返回执行步骤3.3顺序执行;其中,C1是每回合最大迭代次数;
步骤3.8、将m+1赋值给m后,判断m>C2是否成立,若成立,则结束所有训练,并从集合Ω中得到全局最优布置信息S*;否则,返回执行步骤3.2顺序执行,其中,C2是最大迭代回合数;
步骤4、采用全局最优布置信息S*对n个位置上新能源充电站进行布置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310510517.4/1.html,转载请声明来源钻瓜专利网。





