[发明专利]一种使用强化学习获得无人机收集数据轨迹的方法有效
申请号: | 202110697404.0 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113377131B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 刘楠;慕红伟;潘志文;尤肖虎 | 申请(专利权)人: | 东南大学 |
主分类号: | G05D1/12 | 分类号: | G05D1/12 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 强化 学习 获得 无人机 收集 数据 轨迹 方法 | ||
1.一种使用强化学习获得无人机收集数据轨迹的方法,输入无人机起始位置,结束位置,地面各节点位置以及各地面节点待传输数据量和能量限制,考虑各地面节点本身待收集数据量不同和各自能量限制,采用Actor-Critic算法设计以最小化收集数据任务完成时间为目标的无人机收集数据轨迹,其特征在于,包括以下步骤:
步骤1、将待仿真区域按步长划分为网格,定义状态空间S,动作空间A以及及时奖励r;
步骤2、使用参数为ω的Critic神经网络表示状态价值函数Qω(s,a),与Critic神经网络相同网络结构的目标Critic神经网络参数为ω-;使用参数θ为的Actor神经网络表示策略πθ(a|s),用来表示在状态s下选择动作a的概率,与Actor神经网络相同网络结构的目标Actor神经网络参数为θ-;
步骤3、随机初始化Critic神经网络参数ω和Actor神经网络参数θ,
初始化Critic目标神经网络参数ω-=ω,Actor神经网络参数θ-=θ;设置经验回放池容量为D,用于存储s,a,r,st+1,其中st+1为下一个状态,更新过程取样数量为B;
步骤4、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制M,初始化状态为起始状态s1:
步骤5、对于单个回合内,t从1递增至限制T:
步骤6、根据当前Actor神经网络策略at=πθ(a|s)选择动作获得即时奖励rt以及下一个状态st+1;
步骤7、存储状态转移记录st,at,rt,st+1到经验回放池中;
步骤8、从经验回放池中随机选择B条记录(si,ai,ri,si+1),分别表示当前状态si,所执行动作ai,即时奖励ri,下一状态si+1;
步骤9、计算Actor更新目标其中γ表示折扣率,表示根据当前目标Actor神经网络参数θ-执行的策略,表示根据当前目标Critic神经网络参数ω-获得的状态价值函数;
步骤10、通过最小化损失函数更新Critic神经网络参数ω;
步骤11、计算策略梯度
采用随机梯度下降法更新Actor神经网络参数θ;
步骤12、每隔一段时间更新目标Critic神经网络参数ω-为τω+(1-τ)ω-,更新目标Actor神经网络参数θ-为τθ+(1-τ)θ-,其中τ表示更新系数,取值为0.01。
2.根据权利要求1所述的使用强化学习获得无人机收集数据轨迹的方法,其特征在于,基于策略的Actor神经网络用来在每一步m选择动作a(m),基于价值的Critic神经网络,用来评估在状态s(m)执行动作a(m)的价值函数V(s(m)),Actor根据V(s(m))不断调整和优化策略π(a(m)|s(m))。
3.根据权利要求2所述的使用强化学习获得无人机收集数据轨迹的方法,其特征在于,Actor神经网络和Critic神经网络均由多层前馈神经网络组成。
4.根据权利要求3所述的使用强化学习获得无人机收集数据轨迹的方法,其特征在于,Actor最后一层节点数对应动作数,输出时使用softmax函数将动作选择转换为标准化百分比,Critic最后一层为一个节点,代表输入状态的状态估计值。
5.根据权利要求4所述的使用强化学习获得无人机收集数据轨迹的方法,其特征在于,Actor神经网络接收状态向量并选择动作,Critic神经网络接收状态向量并估计状态值,状态值指当前策略的长期累计奖励。
6.根据权利要求5所述的使用强化学习获得无人机收集数据轨迹的方法,其特征在于,训练过程中,Critic神经网络对状态值的估计被用来通过时序差分方式更新Actor对动作的选择策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110697404.0/1.html,转载请声明来源钻瓜专利网。