[发明专利]基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法在审
申请号: | 201611117291.8 | 申请日: | 2016-12-07 |
公开(公告)号: | CN107045655A | 公开(公告)日: | 2017-08-15 |
发明(设计)人: | 席磊;李玉丹;杨苹;许志荣;柳浪;陈建峰 | 申请(专利权)人: | 三峡大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/06;G06N3/00 |
代理公司: | 宜昌市三峡专利事务所42103 | 代理人: | 吴思高 |
地址: | 443002*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 随机 一致 博弈 虚拟 发电 部落 狼群 策略 方法 | ||
技术领域
本发明涉及电力系统经济调度技术领域,特别是涉及一种基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法,适用于分散式经济调度的动态多目标优化分配。
背景技术
AGC通常可以分成两个步骤:a)、AGC总发电功率的追踪,b)、通过优化算法把总发电功率分配到各个AGC机组。实际上,PI控制器已经广泛应用于IDN的AGC总功率协调控制。为了进一步提高AGC的适应性和控制性能,已有文献提出了一种用于交流微网的基于在线粒子群优化算法(particle swarm optimization,PSO)的模糊调优算法。细菌觅食优化算法(bacteria foraging optimization,BFO)、PSO、遗传算法(genetic algorithm,GA)和传统的梯度算法都被应用于优化微网中所有的控制参数。另一方面,《基于Q学习的互联电网动态最优CPS控制》研究了强化学习用于实现互联电网SGC,从而改善AGC动态控制性能。然而,上述文献的研究方法都为集中式控制,需要大量的远方信息,因此动态响应缓慢,控制性能不够理想。
已有文献提出的基于多智能体的分散式相关均衡Q(λ)方法(decentralized correlated equilibrium Q(λ)-learning,DCEQ(λ))作为最优策略来解决SGC的复杂随机动态特性和最优协调控制问题,与Q学习,Q(λ)学习,R(λ)学习和PI控制算法相比具有更优的控制性能。
然而考虑到其控制性能可以进一步提高,以及当智能体个数增加时,DCEQ(λ)算法在搜索MA均衡解时间呈几何数增加,限制了其方法的在更大规模的电网系统里广泛应用。Bowling&Veloso于2002年开发了“赢”或“快速学习”的爬山策略算法(win or learn fast policy hill-climbing,WoLF-PHC);学习中,每个智能体采用混合策略且只保存自身的Q值表。所以,一方面,它避免了一般Q学习中需要解决的探索和利用这一矛盾问题;另一方面,它可解决MA系统的异步决策问题。因此,基于wolf-phc、资格迹和SARSA(λ),提出了一种Q(λ)学习的变种算法,即基于多智能体的分散式赢或者快速学习爬山方法(decentralized win or learn fast policy hill-climbing(λ),DWoLF-PHC(λ),以下简称狼爬山)。该算法利用变化的学习率在MA中感知环境的变化,适应性调整自身策略,以此来鼓励算法收敛到最优解并且保证了算法的合理性。具有WoLF特性,即Win或者Learning Fast。 算法中利用平均混合策略取代了均衡。然而上述方法只是对总功率指令的跟踪进行了研究,而没有对AGC功率指令进行动态优化分配。并且,当智能体个数继续增加时,会出现多解为题,导致系统不稳定。因此需要探索新方法,以得到分散式最优协调控制。
发明内容
为克服现有Q学习算法的缺点和不足,解决了分散式控制系统的协同一致性,本发明提出了一种基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法。该方法结合多智能系统博弈论和同构体的多智能体系统协同一致两个框架,综合考虑了迹衰减因子λ、折扣因子γ、Q学习率α、变学习率等对系统收敛效果的影响;还考虑了通信时延、噪声和拓扑变化对分散式调度的影响,进一步扩大了该策略的适用范围。能更好地适用工程实践中非理想的通信环境,并且有更好的优化结果。
本发明所采用的技术方案是:
基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法,包括以下步骤:
步骤S1、确定状态离散集S。
步骤S2、确定联合动作离散集A。
步骤S3、在每个控制周期开始时,采集各个电网的实时运行数据,所述实时运行数据包括频率偏差△f和功率偏差△P,计算各个区域控制误差ACEi(k)的瞬时值与控制性能标准CPSi(k)的瞬时值。
步骤S4、在当前状态S,某区域电网i获得一个短期的奖励函数信号Ri(k)。
步骤S5、通过计算与估计获得值函数误差pk、δk。
步骤S6、通过函数求取最优目标值函数及策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三峡大学,未经三峡大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611117291.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高纯超细电池级磷酸锰的制备方法
- 下一篇:蓄电池大型板栅浇铸设备
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理