[发明专利]一种用于城市能源应急站点新增的强化多目标烟花算法在审

专利信息
申请号: 202111550134.7 申请日: 2021-12-17
公开(公告)号: CN114219314A 公开(公告)日: 2022-03-22
发明(设计)人: 唐枫;冯翔;李念文;张健;李正龑;邬真侃 申请(专利权)人: 华东理工大学;上海燃气有限公司
主分类号: G06Q10/06 分类号: G06Q10/06;G06Q10/04;G06Q10/00;G06Q50/26
代理公司: 暂无信息 代理人: 暂无信息
地址: 200237 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 城市 能源 应急 站点 新增 强化 多目标 烟花 算法
【权利要求书】:

1.所述一种用于城市能源应急站点新增的强化多目标烟花算法,其特征在于,为了快速得到一组收敛且分布均匀的最优解集,该方法通过强化学习来为动态多目标烟花算法自适应地调整参数,其进化优化的步骤如下:

步骤1:(种群初始化)为了更全面地搜索可行域,结合均匀与随机两种思想,得到均匀分布的初始种群;决策空间被分成N个相等的子空间,子空间的数量取决于种群的大小;

所述公式为每个子空间差距的计算方法,其中u为决策变量的上界,l为决策变量的下界,N为种群大小(种群中个体数量);于是每个子空间表示为:

所述公式为各子空间的计算方法,分别用区间来表示;

步骤2:(强化学习Q表初始化)强化学习通过不断的试错来学习策略,该策略可以根据当前状态与历史反馈来决定下一步的行为,其主要组成部分包括环境、状态、行为和奖励,其示意图如附图2所示;本算法采用常见的无模型强化学习算法Qlearning,它基于即时奖励和当前Q值函数逐步估计某状态采取某行为的价值;

Qlearning算法的关键步骤如下:

1)首先初始化Q表;

2)随机选择一个初始状态St;

3)当循环条件未终止时:

从Q表中为当前状态St选择一个最好的行为At,执行行为At并得到即时的反馈R;

为下一个状态获取最大的Q值;更新Q表;更新当前状态;

所述Q表的更新方法如下:

所述公式为Q表的更新方法,其中St为当前的状态,At为要执行的行为,R是执行该行为后获得的奖励,β为0-1之间的时间因子,β为0时只考虑当前奖励,为1时寻找大的长期的回报,α为0-1之间的学习率,Qt+1为该时刻获得的总累计奖励;

所述算法中当该产生的子代比父代优秀时,意味着该行为成功,其奖励值为1,否则为0;

对于每个个体,其采取A行为的概率公式如下:

所述公式为在状态S下采取A行为的概率计算方法,其中Qt(Si,Aj)为Q表中该时刻的值,T是控制参数,Q表的设计如下:

所述表中S为该算法收敛度和多样性的综合衡量,A为烟花算法的爆炸、交叉、变异行为;

步骤3:(多目标评价)为综合评价种群个体的收敛度与多样性,引入非支配排序与拥挤度计算方法,非支配排序方法根据个体间的支配关系,按照支配度由高到底将个体放入不同的Pareto前沿,拥挤度计算方法对同一层的不同个体按照每个目标函数上的结果值高低顺序排序,综合二者的快速非支配排序方法结合了支配关系与拥挤程度,其快速支配方法如下:

所述为个体间支配的方法,prank为个体p的支配度排名,pdis为个体p的拥挤度;

所述为拥挤度计算方法,fj(X[i])为个体i的解在第j个目标函数上的适应值,min和max表示对fj函数适应值分别取最大和最小值,np为第p层前沿上的解的数量,按照适应度排序后,其第一个和最后一个个体的拥挤度设为无穷大,中间的个体按照前后两个个体间的距离与总体距离之比来设置;

步骤4:(个体参数更新)烟花算法启发于烟花爆炸产生火花的现象,不同烟花的爆炸半径及其产生的火花数量不同,适应度高的个体在较小的半径内产生较多的子代个体,适应度差的个体则在较大的区域内产生较少的子代,计算方法如下:

所述为第t代的基准半径,tmax为最大迭代次数,t为当前迭代代数,rinit和rend分别为第一代和最后一代的基准半径;

所述为第t轮中个体i的爆炸半径,Smax为Si中的最大值,Si为个体i所支配的个体数,其定义如下:

所述为个体i支配的其他个体的总数,能表示该个体在群中的优秀度;

所述为第t代的基准子代数量,Ninit和Nend分别为第一代和最后一代的基准子代数量;

所述为第t代中个体i的子代数量,根据基准子代数量与其优秀度来分配不同资源;

步骤5:(强化学习选择爆炸、变异与交叉行为)采用在线强化学习来选择烟花算法的更新策略,烟花算法模拟烟花爆炸行为进行搜索,其在父代个体的周围通过爆炸或者变异行为从而得到子代个体;

所述为爆炸方法的计算公式,Xi为个体i的位置,ri为个体i的半径;

所述为变异方法的计算公式,Xbest为最优秀个体的位置,norm(0,1)表示均值为0、方差为1的高斯随机数;

所述为交叉方法的计算公式,Xra1为个体ra1的位置,rand(0,1)为0到1之间的随机数,ra1和ra2为种群中随机选取的两个个体;

强化学习Q表中其状态S为快速支配值的排名比例,对应关系如下:

所述为强化学习Q表的状态对应关系,分别对应前20%、20%-60%以及最后40%的个体;

所述为强化学习Q表的行为对应关系,分别对应爆炸、变异和交叉行为;

步骤6:(评价并更新种群)根据精英保留法,子代与父代共同竞争来产生新一代的群体,其评价方法为步骤3中的快速非支配排序;

步骤7:(更新强化学习Q表)根据该个体是否被保留而得到该个体在某状态下选择某行为后得到的奖励,当该个体被保留时,说明该子代比父代优秀,该行为有效,其奖励为1,否则为0;

所述为个体i在第t轮所得奖励的计算方式,其中Pt+1为新一轮的种群;

步骤8:(根据循环条件迭代搜索)在当前迭代次数未到达最大迭代次数时,循环步骤4-步骤7,采用强化学习来自适应调整多目标烟花算法的搜索策略,最后将所得解集输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学;上海燃气有限公司,未经华东理工大学;上海燃气有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111550134.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top