[发明专利]基于ST-DQN海上无人机目标搜寻方法、装置、设备和介质有效
| 申请号: | 202110634237.5 | 申请日: | 2021-06-07 |
| 公开(公告)号: | CN113505431B | 公开(公告)日: | 2022-05-06 |
| 发明(设计)人: | 杨克巍;高盈盈;夏博远;陈刚;郭玙;杨清清;梁笑天;毛嘉慧;王星亮;王翔汉;熊伟涛;姜江;李博 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F30/15 | 分类号: | G06F30/15;G06F30/25;G06F30/27;G06N3/04;G06N3/08;G06F111/08 |
| 代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 st dqn 海上 无人机 目标 搜寻 方法 装置 设备 介质 | ||
1.一种基于搜寻理论和深度值函数网络ST-DQN的海上无人机目标搜寻方法,包括:
构建海上搜寻地图维护模型,对无人机搜寻环境进行形式化描述,包括:
以任务区域E划分成Lx×Ly个网格,每个网格都是独立的,将每个网格的中心点坐标作为该网格的位置坐标;当初始先验信息已知,每个栅格(m,n)赋予初始POC值pmn(k),其中k表示时刻,(m,n)的取值范围(m∈{1,2,3…Lx},n∈{1,2,3…Ly});
当初始先验信息已知,且已进行归一化处理即满足以下公式:
对无人机搜寻能力进行建模,包括:
执行任务的无人机以目标存在概率模型为指导,在待搜寻的任务区域E内规划搜寻路径,当无人机在栅格内执行搜寻任务,基于搜寻理论则无人机的目标探测概率函数为:
其中,vi为无人机i的飞行速度;zi为无人机i的飞行时间;li为无人机i在时间内搜寻航行的总路程;wi为无人机i的探测宽度即扫海宽度;A为搜寻栅格单元的面积;j为搜寻单元数(j=1,2,…,xy);
根据搜寻理论和无人机搜寻代价进行目标函数建模,并通过ST-DQN算法寻找最快搜寻覆盖重点区域的最优路径。
2.根据权利要求1所述的基于搜寻理论和深度值函数网络 ST-DQN的海上无人机目标搜寻方法,其中,根据搜寻理论和无人机搜寻代价进行目标函数建模,并通过ST-DQN算法寻找最快搜寻覆盖重点区域的最优路径,包括:
基于所述公式对每一个单元(m,n)都设置一个属性值r,r表示搜寻此单元的搜寻代价值,rmn(k)表示k时刻无人机的路径信息,若rmn(k)=-1则表示此单元已被无人机搜寻过,若rmn(k)=1则表示当前无人机正处于此单元,rmn(k)=0则表示此海域从未被搜寻过;
对无人机的动作空间进行定义,确定无人机i的动作空间表示为动作决策变量
获取无人机每一步的即时奖惩和回合奖惩,确定每一个无人机在每一个回合中每步的总奖励,将该种奖励机制应用于模型训练过程;
采用深度值函数网络,通过使用经验回放策略和双神经网络策略使神经网络接受环境状态并输出动作价值,环境状态包括目标包含概率和无人机位置信息;
在深度值函数网络训练过程中,Q估计网络通过训练迭代来调整网络权值θt,在第t次迭代中,每一序列的损失函数Lt(θt)改变为:
Lt(θt)=Es,a,r,s'[(y-Q(s,a;θt))2]
式中:s为当前时刻状态;s'为下一时刻状态;a为当前时刻动作。
3.根据权利要求2所述的基于搜寻理论和深度值函数网络 ST-DQN的海上无人机目标搜寻方法,其中,
所述深度值函数网络采用的预设算法还包括:
将无人机每一个时间步的经验et=(st,at,rt,st+1)以数据集合D={e1,…,et}进行存储,以使无人机先前状态的行为分布变得均匀。
4.根据权利要求2所述的基于搜寻理论和深度值函数网络 ST-DQN的海上无人机目标搜寻方法,其中,当无人机匀速搜寻,则无人机规划的搜寻路径满足目标:在有限航程内最大化累积重点子区域AWS:
其中,n1~n8分别表示无人机的动作空间中的一个角度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110634237.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多模型智能机器人系统及构建方法
- 下一篇:一种产品质量检测系统





