[发明专利]一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法在审
申请号: | 201810589927.1 | 申请日: | 2018-06-08 |
公开(公告)号: | CN108762281A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 王卓;胡磊;冯晓宁;姚淑香;隋炎橙;徐沈方;张佩;张士伟 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G05D1/06 | 分类号: | G05D1/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于记忆关联强化学习的实时水下机器人智能决策方法,属于算法技术领域,具体为一种基于RBF神经网络和Q学习结合的水下机器人路径规划智能决策方法。通过Q学习的自主学习能力和RBF神经网络的函数逼近能力,可实现水下机器人在路径探索过程中逐步学习的功能。首先定义针对于路径规划的Q学习四元组,分别为:环境状态,行为动作,及时得分,状态转移,探索过程中逐步更新状态‑动作值函数Q(s,a)进行学习;然后利用RBF神经网络拟合Q学习的结果,即状态动作值函数;最后更新完成的神经网络权值即为学习的结果,此神经网络提供了环境状态到行为的映射关系,可用于未知环境下的智能决策。 | ||
搜索关键词: | 水下机器人 智能决策 环境状态 路径规划 强化学习 神经网络 函数逼近能力 关联 路径探索 算法技术 未知环境 行为动作 学习能力 映射关系 逐步更新 状态动作 状态转移 嵌入式 四元组 可用 拟合 学习 更新 探索 | ||
【主权项】:
1.一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法,其特征在于:(1)AUV在起点由声纳感知环境状态s;(2)感知当前环境状态,根据策略(开始为随机选择)选择一个AUV转角行为(a);(3)执行该转角动作(a),得到奖励(r),状态转移到s_;(4)将获得的(s,a,r,s_)样本存储到样本池中,并判断样本池中的样本个数是否达到规定数目100:达到,样本中随机抽取30个样本作为神经元中心ci,初始化神经网络,转到步骤(5),以后将不再执行次步骤;未达到,转到步骤(2);(5)在样本池中随机抽取60个样本,将s作为网络输入,得到以a为动作的Q(st,at),得到所有动作的Q(st+1,at+1)值;(6)根据公式计算出Q值对应的target_Q值:使用Q和target_Q训练网络,表达式如下:
(7)判断s_是否终止点:是终止点,回到步骤(1);非终止点,则当前状态更新为s_,返回到步骤(2);(8)训练结束,获得训练好的决策神经网络。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810589927.1/,转载请声明来源钻瓜专利网。