[发明专利]一种基于Deep Q-Learning的集群区域覆盖方法有效
申请号: | 202210026133.0 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114326749B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 袁国慧;王卓然;肖剑;何劲辉 | 申请(专利权)人: | 电子科技大学长三角研究院(衢州) |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/0464;G06N3/048;G06N3/092 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 袁宇霞 |
地址: | 324000 浙江省衢*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 deep learning 集群 区域 覆盖 方法 | ||
1.一种基于Deep Q-Learning的集群区域覆盖方法,其特征在于,包括以下步骤:
步骤S1、建立集群系统的动力学模型,集群V中包含n个智能体,v={1,2...,n},集群中第i个智能体定义为agent i,其二阶动力学模型定义如下:
其中pi为智能体agent i的位置,vi为智能体agent i的速度,ui为智能体agent i的加速度,n为集群中的智能体总数,和表示pi、vi相对时间求导;
步骤S2、确定集群中智能体的邻居集合,在集群中当两个智能体之间的距离小于通信距离时,认为两个智能体之间建立通信连接,并共享位置与速度,agent i的邻居智能体集合描述如下:
Ni={j∈V:||pj-pi||≤rα,j≠i}
其中,V表示所有智能体的集合;rα表示智能体之间的通信距离,||·||是欧式范数,pi为智能体agent i的位置,pj为智能体agent j的位置;
步骤S3、建立集群系统的运动控制模型,α-agent表示智能体,β-agent表示智能体探测到的障碍物,γ-agent表示智能体运动的目的地;根据α-agent、β-agent、γ-agent分别产生计算出agent i总的运动控制输入如下:
用于保证集群在运动过程中智能体间不会发生碰撞;
为当智能体在有障碍物的空间中运动时的避障控制量;
决定智能体的运动方向;
步骤S4、待遍历区域为M×L的矩形区域,将该区域量化为m×l个矩阵的γ-信息地图,每个量化后的矩阵中心对应一个引导点γ,将区域的完整搜索转换为信息地图中γ点的完全遍历,所有γ点构成了agent i的一个γ-信息地图集合,智能体agent i根据自身的信息地图集合及其邻居智能体的信息地图集合,完成信息地图集合的融合更新,得到agent i的γ-信息地图,并对信息地图进行编码;
步骤S5、根据γ-信息地图定义强化学习需要的状态空间、行为空间,回报函数;
步骤S6、设计Deep Q-Learning算法所需网络模型;
步骤S7、基于步骤S5、S6的结果设计自由区域下的Deep Q-Learning区域覆盖算法,确定智能体的行为选择策略,智能体通过行为选择策略与环境不断交互并产生经验信息,利用经验信息训练Deep Q-Learning网络;
步骤S8、设计有障碍物区域下的γ点位置调整策略,对步骤S7中Deep Q-Learning网络选取的γ点按需调整,得到有障碍区域下的Deep Q-Learning区域覆盖算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(衢州),未经电子科技大学长三角研究院(衢州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210026133.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人工智能监控设备
- 下一篇:一种柔性电子传感器材料及其制备方法