[发明专利]一种基于深度强化学习的移动机器人视觉跟随方法有效
申请号: | 201910361528.4 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110084307B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 张云洲;王帅;庞琳卓;刘及惟;王磊 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G05D1/12 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 陈玲玉;梅洪玉 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 移动 机器人 视觉 跟随 方法 | ||
1.一种基于深度强化学习的移动机器人视觉跟随方法,其特征在于,包括如下步骤:
步骤一:数据集的自动化构造;
(1)准备一个被跟随的目标易与背景区分开的简单场景;在简单场景下,从跟随机器人的视野采集目标人在机器人视野中不同位置的视野图像;
(2)准备跟随机器人的应用场景作为复杂场景图像,利用图像掩模技术将目标人从简单场景的背景中提取出来,进而与复杂场景相叠加,即得到目标人处于复杂场景下的图像,并且直接为合成的复杂场景图像赋予相应的简单场景下的动作空间标签;
步骤二:基于CNN的方向控制模型搭建及训练;
利用步骤一自动化构造的数据集对CNN模型进行有监督训练,使得CNN能够达到通过机器人视野输入图像输出对应动作状态的效果,从机器人的单目彩色相机采集到的图像,在输入给CNN之前,先将其RGB三通道转换为HSV通道,再作为输入图像送给CNN,之后网络可以输出对应的动作状态;
其中,CNN结构由8层组成,包括卷积层3层、池化层2层、全连通层2层和输出层;从前往后,三个卷积层的卷积核参数设置分别为:8×8、4×4、2×2;两个池化层均采用最大池化,大小均为2×2;经过第三个卷积之后,将会输入给两个全连接层,每一层均有384个节点,在全连接层之后为输出层,经过输出层之后即为多维输出,每一个维度表示对应方向的动作,一共包含三个方向的动作:向前、向左、向右;三个卷积层和两个全连接层之后都会加一个Relu激活函数用以对输入层的结果非线性化;CNN参数的更新采用交叉熵损失函数,具体表示为:
其中,y′为样本的标签数据,是三维的One-Hot向量,其中为1的维度表示正确的动作;f(x)表示CNN模型对各个动作维度的预测概率;
步骤三:模型迁移;
将步骤二训练好的CNN参数权重作为初始参数迁移给DRL模型,使得DRL模型获得与CNN模型相同的控制水平;DRL模型具体为DQN模型,迁移过程为:去除训练好的CNN网络的Softmax层,将前面各层的权重参数直接赋予DQN模型;
步骤四:基于DRL的方向控制模型搭建及训练;
将步骤三初始参数迁移后的DRL模型用于机器人端进行使用,并且通过不断与环境进行交互,使机器人能够不断更新模型,学习到当前所处的环境。
2.根据权利要求1所述的基于深度强化学习的移动机器人视觉跟随方法,其特征在于,步骤二:从机器人的单目彩色相机采集到的图像大小为640×480,在输入给神经网络之前,先将其RGB三通道转换为HSV通道,并且将640×480大小的图像调整成60×80大小,将4个相邻时刻所采集到的图像合并在一起作为网络的输入,最终的输入层包含4×3共12通道,每一个通道的大小都为60×80。
3.根据权利要求1所述的基于深度强化学习的移动机器人视觉跟随方法,其特征在于,步骤四:DQN使用神经网络近似值函数,即神经网络的输入是当前状态值s,输出是预测的价值量Qθ(s,a),在每一个时间步,环境会给出一个状态值s,智能体根据值函数网络得到关于这个s和所有动作的价值量Qθ(s,a),然后利用贪婪算法e-greedy选择动作,做出决策,环境接收到此动作a后会给出一个奖励值r及下一个状态s′;这是一个step;根据r更新值函数网络的参数;DQN采用均方差误差定义目标函数:
其中,s′,a′是下一时刻的状态和动作,γ为超参数,θ为模型参数;
训练时,参数的更新的方式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910361528.4/1.html,转载请声明来源钻瓜专利网。