[发明专利]基于强化学习算法的多智能体系统协同控制方法及系统在审
申请号: | 202110583846.2 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113534660A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 王炳昌;张宝强;王天祥 | 申请(专利权)人: | 山东大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G06N3/04;G06N20/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张庆骞 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 算法 智能 体系 协同 控制 方法 系统 | ||
本公开提供了基于强化学习算法的多智能体系统协同控制方法及系统,包括:建立多智能体系统,根据动态图博弈模型构建值函数,采用值函数作为多智能体系统的性能指标;采用第一神经网络拟合每个智能体的值函数,采用第二神经网络拟合每个智能体的控制策略;基于强化学习算法对值函数和控制策略进行在线迭代,直至收敛获得达到纳什均衡的最优逼近值;根据最优逼近值对多智能体系统进行协同控制;以在线寻找动态图博弈的解,而不需要智能体的动力学方程,为当前策略提供建议,行动者神经网络则给出控制策略,解决了实际问题,达到了算法设计的目的,基于此的多智能体协同控制更加高效合理。
技术领域
本公开属于控制领域,涉及一种基于强化学习算法的多智能体系统协同控制方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成现有技术。
近二十年来,分布式多智能体协同控制系统因其在计算机科学、航天器、无人飞行器、移动机器人等领域的应用而受到广泛关注。所谓的同步指的是所有代理最终通过适当的控制策略达到某种状态。为了获得每个智能体的最优策略,使系统达到纳什均衡,传统的方法是求解一组耦合的HJB方程,由于耦合关系的存在计算极为复杂。随着近年来计算机性能的提高,人工智能也成为研究的热点,深度学习和强化学习作为人工智能的细分领域,也得到越来越多的研究者的关注。在控制科学理论领域,强化学习可以用来在线求解最优控制问题。很多学者在这个领域以及取得了一些成绩,很多算法已经被提出并且验证有效。而在实际应用中,控制器都存在着这样或者那样的限制,这就意味着控制是有界的。在控制受限的条件下,本来就难以求解的HJB方程就变得更加复杂了。对于目前的多智能体系统协同控制面对计算复杂问题,在一些数据繁多的应用时其运算效率难以满足实际应用,对此,如何提高多智能体系统协同控制能力,克服协同控制方法存在的效率低的问题是目前面对的较大挑战。
发明内容
为了解决上述问题,本公开提出了一种用于输入受限的基于强化学习算法的多智能体系统协同控制方法及系统。
第一方面,本公开提供了基于强化学习算法的多智能体系统协同控制方法,包括:
根据多智能体系统的网络拓扑结构构建动态图博弈模型,根据动态图博弈模型构建值函数,采用值函数作为多智能体系统的性能指标;
采用第一神经网络拟合每个智能体的值函数,采用第二神经网络拟合每个智能体的控制策略;
基于强化学习算法对值函数和控制策略进行在线迭代,采用梯度下降法更新第一和第二神经网络的参数,直至收敛获得达到纳什均衡下的最优值函数,此时系统实现协同控制。
第二方面,本公开提供了基于强化学习算法的多智能体系统协同控制系统,包括:
多智能体系统构建模块,用于建立多智能体系统,根据多智能体系统的网络拓扑结构构建动态图博弈模型,根据动态图博弈模型构建值函数,采用值函数作为多智能体系统的性能指标;
神经网络构建模块,用于采用第一神经网络拟合每个智能体的值函数,采用第二神经网络拟合每个智能体的控制策略;
数据处理模块,用于基于强化学习算法对值函数和控制策略进行在线迭代,采用梯度下降法更新第一和第二神经网络的参数,直至收敛获得达到纳什均衡的最优逼近值;
协同控制模块,用于根据最优逼近值对多智能体系统进行协同控制。
第三方面,本公开提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如第一方面所述的基于强化学习算法的多智能体系统协同控制方法。
第四方面,本公开提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如第一方面所述的基于强化学习算法的多智能体系统协同控制方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110583846.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:牙周炎治疗用给药装置
- 下一篇:一种仅利用患者样本的实时质量控制体系