[发明专利]一种搭载强化学习智能体的无人设备集群协同探索方法在审
申请号: | 202211047986.9 | 申请日: | 2022-08-30 |
公开(公告)号: | CN115480585A | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 罗光春;陈爱国;付波;孙国林;杜凯;张晨曦 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10;G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 甘茂 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搭载 强化 学习 智能 无人 设备 集群 协同 探索 方法 | ||
1.一种搭载强化学习智能体的无人设备集群协同探索方法,将无人集群视为一个多智能体系统,将搭载强化学习智能体的无人设备集群视为一个多智能体强化学习系统,包括以下步骤:
S1、根据智能体属性对多智能体系统中每个智能体进行特征向量编码,获得每个智能体的智能体特征向量;
S2、多智能体系统与环境交互,每个智能体从环境中获取下一个观测态和任务奖励;
S3、构建堆栈式自编码器,并根据环境中已探知状态对其进行无监督训练,得到自编码器模型;
S4、通过自编码器模型对多智能体系统中每个智能体在当前时间步访问状态的观测态进行编码,获得每个智能体的状态特征向量;
S5、采用分类器对当前时间步多智能体系统中每个智能体的智能体特征向量和状态特征向量计算匹配评分;
S6、根据匹配评分,对当前时间步多智能体系统中的每个智能体计算匹配评分奖励;
S7、根据匹配评分奖励、任务奖励,对当前时间步多智能体系统中的每个智能体计算总奖励;
S8、根据智能体当前观测态、动作、下一个观测态与总奖励,训练多智能体强化学习算法,更新强化学习智能体策略模型。
2.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S1中,所述特征向量编码的过程为:
S11、马尔可夫决策决策过程中的全体动作空间{Ai}i∈I可以被划分为互相独立的n份:{z1,z2,…,zn},采用n维向量编码智能体类型,若智能体i的可执行动作空间Ai和划分空间zi重合,则将zi所对应的向量位记为1,其余向量位记为0,获得智能体i的智能体类型特性向量;
S12、对每个类型的智能体,通过独热编码方式编码智能体序号,获得智能体i的智能体序号特征向量;
S13、将智能体类型特征向量和智能体序号特性向量级联,获得智能体i的智能体特征向量。
3.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S2中,在每个时间步中,多智能体系统中的每个智能体依次与环境交互:智能体i根据当前观测态oi与强化学习策略模型πi决策出动作ai,环境在智能体i的当前状态si执行动作ai,将智能体i转移到状态si′,并将任务奖励和下一个观测态oi′反馈给智能体i。
4.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S3中,具体为:
S31、在每个时间步中,收集多智能体系统中各个智能体访问状态的观测态,存入大小为buffsize的观测态缓存区Bs;
S32、通过多层感知器构建足够解析全体环境状态空间的堆栈式自编码器Coder;
S33、在强化学习的每个epsiode结束时,从观测态缓存区Bs中采样抽取数据,采用均方误差损失函数对堆栈式自编码器Coder进行无监督训练,得到收敛的自编码器模型。
5.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S4中,具体为:将智能体i从环境获取的下一个观测态输入至自编码器模型中,由自编码器模型的编码模块计算得到智能体i的状态特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211047986.9/1.html,转载请声明来源钻瓜专利网。