[发明专利]一种基于深度强化学习的能量约束下多机探索方法及系统在审
| 申请号: | 202211495294.0 | 申请日: | 2022-11-26 |
| 公开(公告)号: | CN115933734A | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 史殿习;周雅婷;杨焕焕;张玉晖;陈洋;李彤月;周晨磊;胡浩萌 | 申请(专利权)人: | 天津(滨海)人工智能创新中心 |
| 主分类号: | G05D1/10 | 分类号: | G05D1/10 |
| 代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
| 地址: | 300450 天津市滨海新*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 能量 约束 下多机 探索 方法 系统 | ||
1.一种基于深度强化学习的能量约束下多机探索方法,其特征在于,包括:
基于预先构建的无人机的数学模型获取当前视图;
对所述当前视图进行预处理后输入到CNN中进行特征提取,得到提取的特征;
将所述提取的特征输入预先训练好的DDQN强化学习算法,得到无人机的动作;
通过安全控制器判断所述无人机的动作是否可执行,确定所述无人机的动作;
其中,无人机的数学模型是以最大化全局的探索效率为目标函数结合无人机运行约束、状态空间和奖励函数构建得到的;
DDQN强化学习算法是采用目标网络和经历回放方法训练得到的。
2.根据权利要求1所述方法,其特征在于,所述无人机的数学模型的构建,包括:
以最大化全局的探索效率为目标构建目标函数;
基于无人机的运行参数构建无人机运行约束;
基于无人机的所述目标函数设定状态空间和奖励函数;
基于所述无人机运行约束、目标函数、状态空间和奖励函数确定无人机的数学模型;
其中,所述无人机运行约束包括:每一个激活的无人机不能和其他的激活无人机在同一个位置以避免碰撞约束、无人机的剩余能量始终大于或等于0约束、保证无人机初始在起飞降落区约束和无人机是激活状态并且在高度h上约束。
3.根据权利要求2所述方法,其特征在于,所述目标函数的计算式如下所示:
式中,xiai(t)为t时刻的联合动作,i为无人机编号,t为时刻,T为总时刻,G(t)为t时刻所获得的全局奖励。
4.根据权利要求2所述方法,其特征在于,所述每一个激活的无人机不能和其他的激活无人机在同一个位置以避免碰撞约束的计算式如下所示:
式中,Pi(t)为t时刻第i架无人机的位置,Pj(t)为t时刻第j架无人机的位置,φj(t)为t时刻第j架无人机的操作状态,i为无人机编号,j为无人机编号,I为无人机编号集,t为时刻。
5.根据权利要求2所述方法,其特征在于,所述避免无人机碰撞到障碍物约束的计算式如下所示:
式中,Pi(t)为t时刻第i架无人机的位置,B为障碍物位置集,i为无人机编号,I为无人机编号集,t为时刻。
6.根据权利要求2所述方法,其特征在于,所述无人机的剩余能量始终大于或等于0约束的计算式如下所示:
式中,bi(t)为t时刻第i架无人机的电池电量,i为无人机编号,I为无人机编号集,t为时刻。
7.根据权利要求2所述方法,其特征在于,所述保证无人机初始在起飞降落区约束的计算式如下所示:
式中,Pi(0)为第i架无人机在初始时刻的位置,L为起飞降落区,zi(0)为第i架无人机的初始时刻的高度,h为初始高度,i为无人机编号,I为无人机编号集。
8.根据权利要求2所述方法,其特征在于,所述无人机是激活状态并且在高度h上约束的计算式如下所示:
式中,φi(0)为第i架无人机的初始状态,i为无人机编号,I为无人机编号集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津(滨海)人工智能创新中心,未经天津(滨海)人工智能创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211495294.0/1.html,转载请声明来源钻瓜专利网。





