[发明专利]一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法有效
申请号: | 201710168405.X | 申请日: | 2017-03-21 |
公开(公告)号: | CN106959700B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 王田;秦若溪;陶飞 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法:输入巡逻区域、无人机数量与加油站位置后,本发明将构建目标概率模型,然后用上限置信区间算法求出无人机下一步运动方向。即先随机选择一个运动方向,根据队友模型预测队友运动方向,获取本步骤奖励并更新目标概率模型。当仿真步数达到最大仿真时长时,选择最值得尝试的下一方向继续仿真,直至达到最大仿真次数后,选择平均奖励最高方向作为无人机实际运动方向。在每次决策后,无人机依据队友实际运动方向及最大概率方向更新队友模型。本发明可根据无人机硬件性能进行调整、鲁棒性好,具有可自主加油、巡逻与追踪等特点,可广泛用于无人机自动化区域巡逻、追踪等领域。 | ||
搜索关键词: | 一种 基于 上限 置信区间 算法 无人 机群 协同 巡逻 追踪 轨迹 规划 方法 | ||
【主权项】:
1.一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法,其特征在于实现步骤如下:步骤1、在巡逻开始前输入巡逻区域大小、无人机数量、无人机视野范围、无人机最大飞行速度和加油站位置,作为步骤2中目标概率模型的初始化的参数;步骤2、创建并初始化目标概率模型,依据步骤1中的所述参数,将无人机巡逻区域划分为以无人机视野面积的1/9为单位栅格的概率栅格阵,每个栅格记有目标处于该栅格位置的概率值,该概率栅格阵为目标概率模型;初始化时将目标概率模型中的所有栅格的概率值设为相同,且概率之和为1,得到的目标概率模型将与步骤3中的队友模型一同在步骤4中的轨迹规划学习算法里使用;步骤3、创建并初始化队友模型,每架无人机都有一个对应的队友模型,每个模型记录该无人机的最大概率方向,最大概率方向考察无人机各方向栅格概率之和的大小,总共有4种分别是:无人机北方的栅格概率之和最大,无人机南方的栅格概率之和最大,无人机东方的栅格概率之和最大,无人机西方的栅格概率之和最大;队友模型记录无人机处于上述4种最大概率方向之一时,无人机分别选择北、南、东、西和悬停五个运动方向的频次,初始化时将上述4种最大概率方向中无人机的五个运动方向频次都设置为1,得到的队友模型会在步骤4中的轨迹规划学习算法时使用;步骤4、根据步骤1与步骤3得到的目标概率模型和队友模型,采用基于上限置信区间算法(Upper Confidence Bound Apply to Tree,UCT)的轨迹规划学习算法决策无人机运动方向,得到无人机的下一步运动方向即北、南、东、西和悬停五个运动方向之一,无人机按照该方向飞行;步骤5、无人机探测其视野区域内是否存在目标,并依据探测结果采用基于量子概率模型的概率更新规则更新目标概率模型,更新后的目标概率模型会变更各个栅格的概率值,并被应用于下一次循环的步骤4中的轨迹规划学习算法;步骤6、无人机观测队友位置与飞行方向,采用基于贝叶斯概率的队友学习方法更新队友模型,更新后的队友模型会更加准确地预测队友的行为,并被应用于下一循环的步骤4中的轨迹规划学习算法;步骤7、利用步骤5、步骤6的更新结果,转到步骤4执行新的飞行方向决策,以确定无人机的下一步飞行方向,直至收到巡逻终止信号,表明任务完成;所述步骤4中基于上限置信区间算法的轨迹规划学习算法永生决策无人机运动方向的方法如下:步骤i)创建并初始化搜索树,用于记录步骤ii)与步骤iii)中无人机运动仿真的效果;搜索树的根结点表示当前无人机真实情况,搜索树中各记录所处状态的目标概率模型、结点访问次数、结点平均奖励,并在步骤ii)及步骤iv)中使用,同时由步骤iii)更新;初始化时搜索树只有根结点,该根结点的目标概率模型即为实际的目标概率模型,其它各结点访问次数与结点平均奖励都为0;步骤ii)判断搜索次数是否达到最大搜索次数,若达到则停止搜索,并根据![]()
选择无人机运动方向
式中Q(s0,at)是根结点s0中无人机向at方向运动获取的平均奖励值,该平均奖励值将在步骤iii)中计算;若搜索次数未达到最大搜索次数则转至步骤iii)继续搜索;步骤iii)判断当前结点是否达到最大搜索树深度,若达到则更新本次搜索经过的各结点st无人机向at方向运动获取的平均奖励值Q(st,at),更新方法为:
式中Q′(st,at)为更新后平均奖励值,N(st,at)为在结点st中无人机选择运动方向为at的频次,q为无人机群在步骤vi)中获取的各结点的机群奖励值,更新完成后转至步骤ii)开始下一次搜索;若当前结点未达到最大搜索树深度,则判断当前结点是否为搜索树的叶子结点,若是,则转到步骤iv),利用结点的平均奖励选择树扩展方向;若不是,则转到步骤v),通过试验得到新结点的平均奖励;步骤iv)若步骤iii)判断当前结点不是叶子结点,则根据公式:![]()
决定搜索树的扩展方向,式中a为具体运动方向,为北,南,东,西,悬停五个方向之一,a*即为实际选择的运动方向;s为当前仿真结点,N(s,a)为在结点s下决策运动方向为a的次数,N(s)为仿真中经过结点s的次数,Cp为UCT算法的调节参数,默认设置为0.5,Q(st,at)为在结点st中无人机向at方向运动获取的平均奖励值;本步骤确定搜索树的扩展方向亦即无人机的运动方向为a*,然后转至步骤vi)预估队友运动方向以计算本步骤获取的机群奖励值;步骤v)若步骤iii)判断当前结点是叶子结点,则采用随机仿真获取本次搜索的平均奖励值,即等概率地随机从北,南,东,西,悬停中决定一个运动方向a*并执行,然后转至步骤vi)预估队友运动方向以计算本步骤获取的机群奖励值;步骤vi)预估队友的运动方向,具体方法为:根据该结点的目标概率模型,分别计算队友北,南,东,西四个方向的栅格概率之和,求出最大概率方向,然后以队友模型中该最大概率方向下选择北,南,东,西,悬停的频率为概率生成队友的运动方向;利用步骤iv)或步骤v)中获取的无人机运动方向以及本步骤的预估队友方向,计算无人机群本步获得的机群奖励值q,机群奖励值q即是无人机群在仿真过程中视野范围所覆盖的栅格概率之和减去该无人机因未及时加油而掉落的惩罚,惩罚公式为:
步骤vii)更新目标概率模型,具体方法为:各栅格向其邻接的且不在无人机群视野范围内的栅格均分其概率值,各栅格更新后的概率值即为其邻接栅格分给它的概率值之和,该步骤用于为下一循环中的步骤vi)提供新的目标概率模型,然后转至步骤ii)开始下一次搜索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710168405.X/,转载请声明来源钻瓜专利网。