[发明专利]基于Q学习神经网络的无人船路径规划方法在审

申请号：	201811612058.6	申请日：	2018-12-27
公开（公告）号：	CN109726866A	公开（公告）日：	2019-05-07
发明（设计）人：	冯海林;吕扬民;方益明;周国模	申请（专利权）人：	浙江农林大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06N3/08
代理公司：	北京轻创知识产权代理有限公司 11212	代理人：	王新生
地址：	311300 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了种基于Q学习神经网络的无人船路径规划方法，包括以下步骤：a)、初始化存储区D；b)、初始化Q网络，状态、动作初始值；c)、随机设定训练目标；d)、随机选择动作a_t，得到当前奖励r_t，下一时刻状态s_t+1，将(s_t,a_t,r_t,s_t+1)存到存储区D中；e)、从存储区D中随机采样一批数据进行训练，即一批(s_t,a_t,r_t,s_t+1)，当USV达到目标位置，或超过每轮最大时间时的状态都认为是最终状态；f)、如果s_t+1不是最终状态，则返回步骤d，若s_t+1是最终状态，则更新Q网络参数，并返回步骤d，重复n轮后算法结束；g)、设定目标，用训练后的Q网络进行路径规划，直到USV到达目标位置。本发明决策时间短、路线更优化，能够满足在线规划的实时性要求。
搜索关键词：	路径规划最终状态目标位置神经网络初始化无人船实时性要求时刻状态随机采样随机选择网络参数训练目标在线规划返回算法网络奖励重复更新优化决策
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Q学习神经网络的无人船路径规划方法，其特征在于，包括以下步骤：a)、初始化存储区D；b)、初始化Q网络，状态、动作初始值；Q网络中包含以下元素：S，A，P_s,α，R，其中其中S表示USV所处的系统状态的集合，A表示USV所能采取的动作的集合，P_s,α表示系统状态转移概率，R表示奖励函数；c)、随机设定训练目标；d)、随机选择动作a_t，得到当前奖励r_t，下一时刻状态s_t+1，将(s_t,a_t,r_t,s_t+1)存到存储区D中；e)、从存储区D中随机采样一批数据进行训练，即一批(s_t,a_t,r_t,s_t+1)，当USV达到目标位置，或超过每轮最大时间时的状态都认为是最终状态；f)、如果s_t+1不是最终状态，则返回步骤d，若s_t+1是最终状态，则更新Q网络参数，并返回步骤d，重复n轮后算法结束；g)、设定目标，用训练后的Q网络进行路径规划，直到USV到达目标位置。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江农林大学，未经浙江农林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811612058.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Q学习神经网络的无人船路径规划方法在审

专利文献下载