[发明专利]一种基于强化学习的无人机群智感知任务的路径规划方法有效
申请号: | 202110763664.3 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113641192B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 魏凯敏;黄凯;翁健;吴永东;贺宏亮;刘志全;冯丙文 | 申请(专利权)人: | 暨南大学 |
主分类号: | G05D1/12 | 分类号: | G05D1/12;G06N3/04;G06N3/092 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 詹丽红 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 无人 机群 感知 任务 路径 规划 方法 | ||
本发明公开了一种基于强化学习的无人机群智感知任务的路径规划方法,在演员‑批评者架构中加入多头注意力机制和对其他无人机策略的拟合,使得无人机执行决策时,充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时,给予额外的奖励值以加速任务完成。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值,从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值,使无人机更有远见。最后,为使无人机更好的探索最大化数据收集量,使用分布式架构,给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。
技术领域
本发明涉及移动群智感知任务技术领域,具体涉及一种基于强化学习的无人机群智感知任务的路径规划方法。
背景技术
在传统群智感知任务中,大量的非专业用户使用手机、智能穿戴设备等作为基本的感知单元,通过互联网进行协作,实现感知任务的分发和数据收集利用,最终完成复杂的、大规模的感知任务。
随着传感器技术和无线通信技术的高速发展,以及日渐成熟的无人机技术,市面上的无人机集成了越来越多的传感器,拥有越来越强大的感知能力和计算能力。在此背景下,利用无人机感知大规模数据成为可能。
强化学习是研究代理如何通过在环境中反复试验学习的方法。环境是代理与之互动的世界,在交互的每个步骤中,代理可以得到对环境的观察,然后根据策略决定所要采取的动作。当代理对环境进行操作时,环境会随之发生变化,并依据当前环境状态、动作、下一时刻环境状态得到奖励值。而策略是从环境中反复试验所学得的。强化学习的目标是学得一个能够使预期收益最大化的策略。
演员-批评者架构集成了值函数估计算法和策略搜索算法。由于在传统的策略梯度算法中,会因为采样次数的不足导致训练过程中对累积奖励期望值的估计不稳定,因此使用批评者网络作为值函数Q,来估计在当前环境状态下演员策略网络采取某动作的预期收益。
发明内容
本发明的目的是为了解决现有多智能体强化学习算法中的上述缺陷,公开了一种基于强化学习的无人机群智感知任务的路径规划方法,在演员-批评者架构中加入多头注意力机制和对其他无人机策略的拟合,使得无人机执行决策时,充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时,给予额外的奖励值以加速任务完成。当无人机间的路径重叠时,根据信号点数据量判断属于协作或竞争,依此修正它们的奖励值,从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值,使无人机更有远见。最后,为使无人机更好的探索最大化数据收集量,使用分布式架构,给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。
本发明的目的可以通过采取如下技术方案达到:
一种基于强化学习的无人机群智感知任务的路径规划方法,所述路径规划方法包括以下步骤:
S1、根据感知任务的环境,构建无人机的仿真环境,设置无人机u在t时刻所能观测到的局部观测值为无人机u设置通讯功能,使无人机u能获得其他无人机的局部观测值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110763664.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于混合监督的行人重识别方法及系统
- 下一篇:一种红磷电极的制备方法