[发明专利]基于忆阻交叉阵列与Q学习的机器人路径规划系统有效
申请号: | 201710366671.3 | 申请日: | 2017-05-23 |
公开(公告)号: | CN107085429B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 胡小方;马异峰;段书凯;贾鹏飞;彭小燕 | 申请(专利权)人: | 西南大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N20/00 |
代理公司: | 成都时誉知识产权代理事务所(普通合伙) 51250 | 代理人: | 陈千 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 交叉 阵列 学习 机器人 路径 规划系统 | ||
本发明公开了一种基于忆阻交叉阵列与Q学习的机器人路径规划系统,一方面将Q学习中距离目标点的回报由离散点的形式改为用函数表达,另一方面,当机器人距障碍物一定范围时让其以直线趋近目标点,并且本发明提出了具有连续输入输出、动态可变电阻、纳米尺寸的忆阻交叉阵列模型,详细推导了改变忆阻值所需要的电压以及所需的施加时间。最后经实验分析,证明了方案的有效性。本发明提出了利用忆阻交叉阵列来实现机器人路径规划系统的新方案,将为忆阻器以及机器人路径规划更为广阔的应用提供新的思路。
技术领域
本发明涉及忆阻交叉阵列与强化学习技术,具体涉及到一种基于忆阻交叉阵列与Q学习的机器人路径规划系统。
背景技术
强化学习是一种著名的无监督的机器智能学习算法,且被广泛应用于人工智能等领域。著名的强化学习算法包括:Sutton在1988年提出的TD算法;Schwartz提出的R-Learning算法;Watkins在1989年提出的Q-Learning算法以及Peng and Williams在1996年提出的Q(λ)算法等。其中相对重要的Q-Learning算法被广泛用于机器人路径规划。
但传统的Q-Learning利用lookup表格法来存储产生的Q值,所以当状态空间逐渐增大时,可能会出现由于Q-Learning算法所需存储空间巨大而导致状态爆炸使得机器人不能有效工作,所以不得不让机器人携带更多的存储设备来满足需要,使得机器人工作效率大大降低。
鉴于忆阻器的良好特性,本申请人于2012年提出了专利申请201210188573.2,并公开了一种基于忆阻交叉阵列的Q学习系统,该系统将新的电路元件——忆阻器成功应用到了强化学习中,解决了强化学习需要大量的存储空间问题,为以后强化学习的研究提供了一种新的思路。
但是,现有经过继续研究发现,现有的基于忆阻交叉阵列的Q学习系统存在的缺陷是:收敛速度太慢,机器学习时间较长。
发明内容
为了解决上述问题,本发明提供一种基于忆阻交叉阵列与Q学习的机器人路径规划系统,该系统通过构建一种新的硬件架构,在实现机器人路径规划时,加快了收敛速度,缩短了机器学习时间。
为实现上述目的,本发明所采用的具体技术方案如下:
一种基于忆阻交叉阵列与Q学习的机器人路径规划系统,包括忆阻交叉阵列,其关键在于,还包括读写控制开关、状态检测与选择模块、列选择开关、控制器、随机选择模块、第一比较器、第二比较器、延迟单元以及运算模块,其中:
读写控制开关:用于控制忆阻交叉阵列的读写操作,设置有读电压Vr输入端和写电压Vw输入端;
状态检测与选择模块:当需要根据状态执行相应动作时,用于检测当前环境状态st,执行动作at并得到环境回报rt;当需要对Q值进行更新时,用于输出前一个时刻的环境状态,并选择相应的行线,使其加载写电压Vw,并持续时间Tw,更新忆阻阵列的输出值;
列选择开关:用于选择对应的列线;
控制器:用于控制当前时刻是随机选择模块工作还是第一比较器工作;
随机选择模块:通过生成一随机数作为列线选择的判断标准;
第一比较器:用于比较所有列线的电压值,并将电压值最大的一列选择送入延迟单元中;
第二比较器:用于比较所有列线的电压值,并将电压值最大的一列选择送入运算模块中;
延迟单元:将输出电压延迟一个时间步长;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710366671.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便利型键合丝识别工装
- 下一篇:环形识别码装置