[发明专利]一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法在审

申请号：	201810589927.1	申请日：	2018-06-08
公开（公告）号：	CN108762281A	公开（公告）日：	2018-11-06
发明（设计）人：	王卓;胡磊;冯晓宁;姚淑香;隋炎橙;徐沈方;张佩;张士伟	申请（专利权）人：	哈尔滨工程大学
主分类号：	G05D1/06	分类号：	G05D1/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种基于记忆关联强化学习的实时水下机器人智能决策方法，属于算法技术领域，具体为一种基于RBF神经网络和Q学习结合的水下机器人路径规划智能决策方法。通过Q学习的自主学习能力和RBF神经网络的函数逼近能力，可实现水下机器人在路径探索过程中逐步学习的功能。首先定义针对于路径规划的Q学习四元组，分别为：环境状态，行为动作，及时得分，状态转移，探索过程中逐步更新状态‑动作值函数Q(s,a)进行学习；然后利用RBF神经网络拟合Q学习的结果，即状态动作值函数；最后更新完成的神经网络权值即为学习的结果，此神经网络提供了环境状态到行为的映射关系，可用于未知环境下的智能决策。
搜索关键词：	水下机器人智能决策环境状态路径规划强化学习神经网络函数逼近能力关联路径探索算法技术未知环境行为动作学习能力映射关系逐步更新状态动作状态转移嵌入式四元组可用拟合学习更新探索
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法，其特征在于：(1)AUV在起点由声纳感知环境状态s；(2)感知当前环境状态，根据策略(开始为随机选择)选择一个AUV转角行为(a)；(3)执行该转角动作(a)，得到奖励(r)，状态转移到s_；(4)将获得的(s,a,r,s_)样本存储到样本池中，并判断样本池中的样本个数是否达到规定数目100：达到，样本中随机抽取30个样本作为神经元中心ci，初始化神经网络，转到步骤(5)，以后将不再执行次步骤；未达到，转到步骤(2)；(5)在样本池中随机抽取60个样本，将s作为网络输入，得到以a为动作的Q(st,at)，得到所有动作的Q(st+1,at+1)值；(6)根据公式计算出Q值对应的target_Q值：使用Q和target_Q训练网络，表达式如下：(7)判断s_是否终止点：是终止点，回到步骤(1)；非终止点，则当前状态更新为s_，返回到步骤(2)；(8)训练结束，获得训练好的决策神经网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810589927.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法在审

专利文献下载