[发明专利]离散时间下多智能体系统的一致性控制算法设计方法有效

申请号：	202110781937.7	申请日：	2021-07-09
公开（公告）号：	CN113359476B	公开（公告）日：	2022-09-16
发明（设计）人：	苏厚胜;龙铭康;王晓玲;赵金	申请（专利权）人：	广东华中科技大学工业技术研究院;华中科技大学;广东省智能机器人研究院
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	东莞卓为知识产权代理事务所(普通合伙) 44429	代理人：	齐海迪
地址：	523000 广东省东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	离散时间智能体系一致性控制算法设计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种离散时间下多智能体系统的一致性控制算法设计方法，其特征在于，包括以下步骤：

S1、构造误差系统，将一致性问题转化为每个智能体局部邻域跟踪误差系统的最优控制问题；

S2、为每个智能体的跟踪误差系统建立一个性能指标函数，并根据贝尔曼最优原理推导出离散时间的哈密顿-雅可比-贝尔曼方程；

S3、引入一种用于离散时间下多智能体系统一致性的不需要允许的初始控制策略的值迭代算法；

步骤S3实现过程如下：

S31、对每个个体定义价值函数

其中表示跟踪误差矢量；

S32、设计价值迭代算法，具体步骤如下：

1)初始化：选择任意的初始的控制策略和初始价值函数

迭代值可以更新为：

2)迭代循环：

①将控制策略选择为

②计算价值函数

直到：收敛；

S4、构造Actor-Critic网络以实时在线逼近值函数和最优控制策略；

步骤S4包括以下步骤：

S41、对每个代理定义Q函数

根据S31中定义的价值函数，可以得到

其中Q函数的初始值为

S42、将Q函数改写为二次型形式

其中

S43、最优控制策略可以通过求解如下式子得到

可以得到

S44、构建critic网络和actor网络来拟合Q函数与最优控制律，它们被分别设计为如下形式

和

其中和分别表示具有合适维度的critic网络和actor网络的权重矩阵；

S45、将智能体actor网络的逼近误差表示为

目标控制策略可以表示为

S46、运用梯度下降法，actor网络权重矩阵的更新策略被设计为

S47、Q函数的更新策略被设计为

定义critic网络的期望值为

那么，critic网络的逼近误差被自然地定义为

S48、运用梯度下降法，critic网络权重矩阵的更新策略被设计为

S49、设计基于Actor-Critic网络的模型自由的一致性控制算法，具体步骤如下：

1)初始化：选择任意初始值的网络权重矩阵和将critic网络的期望值初始化为

2)迭代循环：

①根据更新控制策略；

②计算下一时刻的跟踪误差e_i(k+1)；

③根据计算Q函数的值；

④根据下式计算Q函数的期望值：

⑤根据下式分别更新critic网络和actor网络的权重矩阵：

直到下面两个式子收敛：

2.根据权利要求1所述的离散时间下多智能体系统的一致性控制算法设计方法，其特征在于，所述步骤S1包括以下步骤：

S11、利用强化学习方法，将一致性问题转化为每个智能体的局部领域跟踪误差系统的最优控制问题，首先建立多智能体系统的动力学方程

x_i(k+1)＝Ax_i(k)+Bu_i(k)，i＝0，1，2，...，N，

其中表示个体的位置向量，表示个体的控制输入，A、B分别表示系统矩阵和输入矩阵；

S12、针对上述的系统，引入如下的误差变量

其中b_i代表领导者对跟随者的牵制增益，即如果个体i能够接收到领导者的信息，那么b_i＞0，否则b_i＝0；

在上述定义的误差变量的基础上定义全局误差变量，其形式为

全局位置状态变量和全局领导者状态变量定义为

S13、根据上述定义，可以得到全局误差的矩阵表示形式

其中

3.根据权利要求1所述的离散时间下多智能体系统的一致性控制算法设计方法，其特征在于，所述步骤S2包括以下步骤：

S21、基于步骤S1，为每个智能体的跟踪误差系统建立一个性能指标函数，并根据贝尔曼最优原理推导出离散时间的哈密顿-雅可比-贝尔曼方程；

首先为每个代理i定义本地耦合的性能指数函数

其中表示第i智能体的效能函数，H_ii≥0，R_ii＞0，R_ij≥0表示对称性能矩阵；

S22、定义第i个智能体的控制序列集为

然后，对于任意的控制序列第i个智能体的最优性能指标函数由下式给出

S23、在上述基础之上，对于N个智能体的博弈，第i个智能体的最优性能指标函数满足以下不等式

其中表示个体的控制序列，在全局纳什均衡的定义下，S22中的最优性能指标函数可以表示为

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东华中科技大学工业技术研究院;华中科技大学;广东省智能机器人研究院，未经广东华中科技大学工业技术研究院;华中科技大学;广东省智能机器人研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110781937.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]离散时间下多智能体系统的一致性控制算法设计方法有效

专利文献下载