[发明专利]一种使用强化学习获得无人机收集数据轨迹的方法有效
申请号: | 202110697404.0 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113377131B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 刘楠;慕红伟;潘志文;尤肖虎 | 申请(专利权)人: | 东南大学 |
主分类号: | G05D1/12 | 分类号: | G05D1/12 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 强化 学习 获得 无人机 收集 数据 轨迹 方法 | ||
本发明公开了一种使用强化学习获得无人机收集数据轨迹的方法,输入无人机起始位置,结束位置,地面各节点位置以及待传输数据量和能量限制,采用Actor‑Critic算法设计无人机辅助收集地面节点数据轨迹。该方法在最小化收集数据任务完成时间的目标下充分考虑了各地面节点本身待收集数据量不同和各自能量限制。在解法上通过将连续时间无人机轨迹设计问题转化为离散时间马尔科夫决策过程,基于Actor‑Critic算法获得无人机在每个状态下的最佳收集数据决策和最佳运动决策。能设计无人机最佳收集数据轨迹,可以在保证收集完所有地面节点待传输数据量并满足各地面节点能量限制的前提下显著减少收集时间。
技术领域
本发明属于移动通信技术领域,尤其涉及一种使用强化学习获得无人机收集数据轨迹的方法。
背景技术
随着物联网产业的发展,数据收集成为物联网功能实现的重要基础。虽然许多通信协议和路由算法被提出以实现在物联网和无线传感器网络中的数据收集任务,但是由于传感器节点的移动性以及自然灾害发生时无法保证网络的连通性,这些通信协议和路由算法很难很好地实现既定功能。
发明内容
本发明目的在于提供一种使用强化学习获得无人机收集数据轨迹的方法,以解决传感器节点的移动性以及自然灾害发生时无法保证网络的连通性,这些通信协议和路由算法很难很好地实现既定功能的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种使用强化学习获得无人机收集数据轨迹的方法,输入无人机起始位置,结束位置,地面各节点位置以及各地面节点待传输数据量和能量限制,考虑各地面节点本身待收集数据量不同和各自能量限制,采用Actor-Critic算法设计以最小化收集数据任务完成时间为目标的无人机收集数据轨迹,包括以下步骤:
步骤1、将待仿真区域按步长划分为网格,定义状态空间S,动作空间A以及及时奖励r;
步骤2、使用参数为ω的Critic神经网络表示状态价值函数Qω(s,a),与Critic神经网络相同网络结构的目标Critic神经网络参数为ω-;使用参数θ为的Actor神经网络表示策略πθ(a|s),用来表示在状态s下选择动作a的概率,与Actor神经网络相同网络结构的目标Actor神经网络参数为θ-;
步骤3、随机初始化Critic神经网络参数ω和Actor神经网络参数θ,
初始化Critic目标神经网络参数ω-=ω,Actor神经网络参数θ-=θ;设置经验回放池容量为D,用于存储s,a,r,st+1,其中st+1为下一个状态,更新过程取样数量为B;
步骤4、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制M,初始化状态为起始状态s1:
步骤5、对于单个回合内,t从1递增至限制T:
步骤6、根据当前Actor神经网络策略at=πθ(a|s)选择动作获得即时奖励rt以及下一个状态st+1;
步骤7、存储状态转移记录st,at,rt,st+1到经验回放池中;
步骤8、从经验回放池中随机选择B条记录(si,ai,ri,si+1),分别表示当前状态si,所执行动作ai,即时奖励ri,下一状态si+1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110697404.0/2.html,转载请声明来源钻瓜专利网。