[发明专利]一种无人机对抗方法及装置有效
申请号: | 202210353487.6 | 申请日: | 2022-04-06 |
公开(公告)号: | CN114492677B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 高阳;李浩;颜冠伟;常惠;聂勤;梁亚蓉;赵皓;张鑫辰 | 申请(专利权)人: | 中国科学院自动化研究所;中国航空工业集团公司成都飞机设计研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 白冬梅 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无人机 对抗 方法 装置 | ||
本发明提供一种无人机对抗方法及装置,包括:获取无人机智能体的多个经验数据;根据每个经验数据的优先级,在经验数据中确定多个样本经验数据;利用多个样本经验数据对无人机对抗模型进行训练;利用训练好的无人机对抗模型进行无人机对抗。本发明提供的无人机对抗方法及装置,通过对每个经验数据赋予优先级,使得更有价值的经验数据作为训练样本的概率更大,进而提高无人机对抗模型的训练效率。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种无人机对抗方法。
背景技术
利用智能对抗方法可以有效辅助飞行员决策,现有的智能对抗研究大多是基于博弈论方法,在一组离散的动作上建立效用函数,在无人机的博弈对抗中,大多是在环境和算法复杂性之间进行权衡,在合理的时间内达到近似最优解。
深度强化学习是将强化学习的决策能力与深度学习的感知能力相结合的端对端学习方法,结合两种学习方法的特点使其可以处理高维状态空间和连续动作空间的控制决策问题,适用于无人机的博弈对抗研究。
然而,在无人机的博弈对抗中,强化学习算法会出现重复的无效训练以及优秀经验样本利用率低的不足,导致学习效率较低的问题。
发明内容
本发明提供一种无人机对抗方法及装置,用以解决现有技术中学习效率较低的缺陷,实现无人机对抗模型的训练效率的有效提升。
本发明提供一种无人机对抗方法,包括:
获取无人机智能体的多个经验数据;
根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
利用所述多个样本经验数据对无人机对抗模型进行训练;
利用训练好的无人机对抗模型进行无人机对抗。
根据本发明提供的一种无人机对抗方法,所述优先级是基于以下方法确定的:
确定每个经验数据的初始偏好度;
并根据经验池中的每个经验数据的立即奖励值,确定奖励值基线;
根据所述奖励值基线,对所述初始偏好度进行调整,获取每个经验数据的更新偏好度;
根据所述更新偏好度,确定所述每个经验数据的优先级。
根据本发明提供的一种无人机对抗方法,所述无人机对抗模型中包括:第一无人机和第二无人机;所述利用所述多个样本经验数据对无人机对抗模型进行训练,包括:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
根据本发明提供的一种无人机对抗方法,所述总奖励函数是基于以下方法构建的:
根据两个无人机在与环境交互过程中的脱离角和偏移角,构建角度奖励函数;
根据两个无人机的速度和最佳对抗速度,构建速度奖励函数;
根据两个无人机的高度差和最佳对抗高度差,构建高度奖励函数;
根据所述角度奖励函数、所述速度奖励函数和所述高度奖励函数,确定综合奖励函数;
根据所述综合奖励函数,构建所述总奖励函数。
根据本发明提供的一种无人机对抗方法,所述经验数据包括机动速度数据和空间轨迹数据;所述获取无人机智能体的多个经验数据,包括:
基于无人机智能体的速度矢量,构建无人机运动模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;中国航空工业集团公司成都飞机设计研究所,未经中国科学院自动化研究所;中国航空工业集团公司成都飞机设计研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210353487.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种NR数据重建立方法
- 下一篇:一种可快速降温的嵌入式铝辊用热装机