[发明专利]一种基于多体博弈的无人机群协同自主决策方法及装置在审
申请号: | 202111534368.2 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114460959A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 程进;邹晓滢;郝明瑞;魏东辉 | 申请(专利权)人: | 北京机电工程研究所 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 中国和平利用军工技术协会专利中心 11215 | 代理人: | 刘光德 |
地址: | 100074 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 博弈 无人 机群 协同 自主 决策 方法 装置 | ||
1.一种基于多体博弈的无人机群协同自主决策方法,其特征在于,包括:
构建无人机群与目标的对抗模型,包括无人机及目标的运动模型、对抗双方的机动动作库以及机动攻防库;
将对抗双方作为智能体,以二人零和博弈为条件构建随机博弈模型;
采用深度强化学习求解所述随机博弈模型,得到最优策略。
2.根据权利要求1所述的无人机编队协同导引方法,其特征在于,无人机及目标的运动模型分别采用质点运动方程表示,用于表示无人机群与目标双方对抗态势的参数包括对抗双方的位置坐标、速度、相对距离、方位角及目标入射角。
3.根据权利要求2所述的无人机编队协同导引方法,其特征在于,所述随机博弈模型中,状态S由对抗双方的位置坐标(x,y,z)、速度v、相对距离R、方位角和目标入射角q组成,表示为:
4.根据权利要求3所述的无人机编队协同导引方法,其特征在于,所述随机博弈模型中,无人机的动作空间Ap包括11种动作,目标的动作空间AT包括5种动作。
5.根据权利要求2所述的无人机编队协同导引方法,其特征在于,所述随机博弈模型中,优势奖励函数为:
式中,表示无人机pi相对于目标T的优势态势奖励,Δd表示双方之间的欧氏距离,Δh表示双方之间的高度差,表示无人机pi相对于目标T的方位角,q表示无人机pi的目标入射角。
6.根据权利要求1所述的无人机编队协同导引方法,其特征在于,将当前状态s、无人机采取的动作a、目标采取的动作o、对应的奖励值r以及执行动作到达的下一状态s′作为一个五元组{s,a,o,r,s′}存储到记忆库,并从记忆库中随机抽取一定大小的数据作为训练样本,计算出目标Q值来训练神经网络。
7.根据权利要求6所述的无人机编队协同导引方法,其特征在于,所述采用深度强化学习求解所述随机博弈模型,包括如下步骤:
步骤S31:给定双方一个初始状态,初始化记忆库,设置观察值;
步骤S32:创建Q网络和目标网络,Q网络参数为θ,目标网络参数θ-=θ;神经网络输入为状态s,输出为动作状态值函数Q,学习一定次数后,将Q网络的参数拷贝给目标网络;
步骤S33:执行以下循环遍历过程:
S331:无人机根据当前状态s按照策略π选择动作a并执行,得到下一状态s′,以及获得的奖励r;观测目标在状态s下选取的动作o,将{s,a,o,r,s′}五元组存储到记忆库中;
S332:从记忆库中随机抽取部分数据作为一个训练样本,将训练样本的s′值作为神经网络的输入,根据神经网络输出得到状态s′下的Q[s′];
S333:使用线性规划得到minimax状态值V[s′],并计算出目标Q值target_q;
S334:计算损失函数,采用梯度下降法进行优化,更新Q网络参数;
步骤S34:使用训练好的神经网络输出的Q值进行线性规划求解,得到最优策略π。
8.一种基于多体博弈的无人机群协同自主决策装置,其特征在于,包括处理器及存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序,以实现根据权利要求1-7任一项所述的无人机编队协同导引方法。
9.一种非暂态可存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现根据权利要求1-7任一项所述的无人机编队协同导引方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京机电工程研究所,未经北京机电工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111534368.2/1.html,转载请声明来源钻瓜专利网。