[发明专利]一种基于强化学习的多智能体覆盖方法有效
申请号: | 202211432494.1 | 申请日: | 2022-11-15 |
公开(公告)号: | CN115797394B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 孙新苗;任明里;丁大伟;任莹莹;王恒 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06T7/20 | 分类号: | G06T7/20;G06T7/70;G06N3/092 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;付忠林 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 智能 覆盖 方法 | ||
1.一种基于强化学习的多智能体覆盖方法,其特征在于,所述多智能体包括多个静止智能体和多个移动智能体,所述多智能体覆盖方法包括:
以最大化覆盖性能为目标,确定多个静止智能体在区域中的位置,并根据所述静止智能体的位置将所述区域划分为已有效覆盖区域和未有效覆盖区域;
计算移动智能体能够获得的最大覆盖性能;
设置每一移动智能体对环境的观察和动作,并基于移动智能体能够获得的最大覆盖性能设置移动智能体的奖励;每个移动智能体以最大化各自的奖励函数为目标,基于强化学习算法,多个移动智能体同时与环境交互,进行分布式训练,得到各移动智能体的运动规划,实现对未有效覆盖区域的覆盖;
所述以最大化覆盖性能为目标,确定多个静止智能体在区域中的位置,包括:
调整多个静止智能体在区域中的位置,使得覆盖性能尽可能的大;
所述覆盖性能的计算函数H(S)如下:
H(S)=∫R(x)P(x,S)dx
其中,P(x,S)为多智能体在区域中点x处的联合侦测概率,pi(x,si)为第i个智能体的侦测概率,N为智能体个数,R(x)为事件密度函数;
在将所述区域划分为已有效覆盖区域和未有效覆盖区域时,判断区域中一点x是否已有效覆盖的依据为多智能体在x处的联合侦测概率P(x,S)是否大于预设阈值,当P(x,S)大于预设阈值时,表示x处已有效覆盖,否则,x处未有效覆盖;
所述移动智能体对环境的观察为三幅二值图像;其中,
第一幅二值图像表示出当前仍未有效覆盖的区域;
第二幅二值图像表示出当前移动智能体的位置;
第三幅二值图像表示出除当前移动智能体外的其它移动智能体的位置;
所述移动智能体的动作集合为{0,1,2,3,4},分别表示移动智能体静止,移动智能体上移,移动智能体下移,移动智能体左移以及移动智能体右移;
环境对移动智能体的奖励Reward为:
Reward=(H当前-Hmax)/10+incres*30
其中,H当前为移动智能体在当前位置的覆盖性能;Hmax为移动智能体能够获得的最大覆盖性能;incres为相比上一时刻新增加的有效覆盖区域面积;奖励的第一部分表示移动智能体在当前位置的覆盖性能与最大值的差距,奖励的第二部分为相比上一时刻新增加的有效覆盖区域;
所述基于强化学习算法,多个移动智能体同时与环境交互,进行分布式训练时,设置移动智能体的actor网络和critic网络为两层卷积层加三层全连接层;其中,网络中的第一层卷积层为16个20*20的卷积核,第二层卷积层为8个10*10的卷积核,三层全连接层的通道数分别为256,128,64。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211432494.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于数字高程模型的河道反向溯源确定方法
- 下一篇:一种报文转发方法及设备