[发明专利]一种使用强化学习获得无人机收集数据轨迹的方法有效

申请号：	202110697404.0	申请日：	2021-06-23
公开（公告）号：	CN113377131B	公开（公告）日：	2022-06-03
发明（设计）人：	刘楠;慕红伟;潘志文;尤肖虎	申请（专利权）人：	东南大学
主分类号：	G05D1/12	分类号：	G05D1/12
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	孙建朋
地址：	211102 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种使用强化学习获得无人机收集数据轨迹方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种使用强化学习获得无人机收集数据轨迹的方法，输入无人机起始位置，结束位置，地面各节点位置以及各地面节点待传输数据量和能量限制，考虑各地面节点本身待收集数据量不同和各自能量限制，采用Actor-Critic算法设计以最小化收集数据任务完成时间为目标的无人机收集数据轨迹，其特征在于，包括以下步骤：

步骤1、将待仿真区域按步长划分为网格，定义状态空间S，动作空间A以及及时奖励r；

步骤2、使用参数为ω的Critic神经网络表示状态价值函数Q_ω(s,a),与Critic神经网络相同网络结构的目标Critic神经网络参数为ω^-；使用参数θ为的Actor神经网络表示策略π_θ(a|s)，用来表示在状态s下选择动作a的概率，与Actor神经网络相同网络结构的目标Actor神经网络参数为θ^-；

步骤3、随机初始化Critic神经网络参数ω和Actor神经网络参数θ，

初始化Critic目标神经网络参数ω^-＝ω,Actor神经网络参数θ^-＝θ；设置经验回放池容量为D，用于存储s,a,r,s_t+1，其中s_t+1为下一个状态，更新过程取样数量为B；

步骤4、初始回合标志为1，进入大循环，递增遍历直至达到最大回合数限制M，初始化状态为起始状态s₁：

步骤5、对于单个回合内，t从1递增至限制T：

步骤6、根据当前Actor神经网络策略a_t＝π_θ(a|s)选择动作获得即时奖励r_t以及下一个状态s_t+1；

步骤7、存储状态转移记录s_t,a_t,r_t,s_t+1到经验回放池中；

步骤8、从经验回放池中随机选择B条记录(s_i,a_i,r_i,s_i+1)，分别表示当前状态s_i，所执行动作a_i，即时奖励r_i，下一状态s_i+1；

步骤9、计算Actor更新目标其中γ表示折扣率，表示根据当前目标Actor神经网络参数θ^-执行的策略，表示根据当前目标Critic神经网络参数ω^-获得的状态价值函数；

步骤10、通过最小化损失函数更新Critic神经网络参数ω；

步骤11、计算策略梯度

采用随机梯度下降法更新Actor神经网络参数θ；

步骤12、每隔一段时间更新目标Critic神经网络参数ω^-为τω+(1-τ)ω^-，更新目标Actor神经网络参数θ^-为τθ+(1-τ)θ^-，其中τ表示更新系数，取值为0.01。

2.根据权利要求1所述的使用强化学习获得无人机收集数据轨迹的方法，其特征在于，基于策略的Actor神经网络用来在每一步m选择动作a(m),基于价值的Critic神经网络，用来评估在状态s(m)执行动作a(m)的价值函数V(s(m))，Actor根据V(s(m))不断调整和优化策略π(a(m)|s(m))。

3.根据权利要求2所述的使用强化学习获得无人机收集数据轨迹的方法，其特征在于，Actor神经网络和Critic神经网络均由多层前馈神经网络组成。

4.根据权利要求3所述的使用强化学习获得无人机收集数据轨迹的方法，其特征在于，Actor最后一层节点数对应动作数，输出时使用softmax函数将动作选择转换为标准化百分比，Critic最后一层为一个节点，代表输入状态的状态估计值。

5.根据权利要求4所述的使用强化学习获得无人机收集数据轨迹的方法，其特征在于，Actor神经网络接收状态向量并选择动作，Critic神经网络接收状态向量并估计状态值，状态值指当前策略的长期累计奖励。

6.根据权利要求5所述的使用强化学习获得无人机收集数据轨迹的方法，其特征在于，训练过程中，Critic神经网络对状态值的估计被用来通过时序差分方式更新Actor对动作的选择策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110697404.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于烟花算法增强珊瑚礁优化的多模态医学图像配准方法
下一篇：一种低苦味的左旋薄荷醇及其制备方法

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种使用强化学习获得无人机收集数据轨迹的方法有效

专利文献下载