[发明专利]基于离线模型预训练学习的DDPG算法的机器人控制方法有效
申请号: | 202011429368.1 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112668235B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 张茜;王洪格;姚中原;戚续博 | 申请(专利权)人: | 中原工学院 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08;G06F111/08;G06F111/10 |
代理公司: | 郑州优盾知识产权代理有限公司 41125 | 代理人: | 栗改 |
地址: | 451191 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 离线 模型 训练 学习 ddpg 算法 机器人 控制 方法 | ||
1.一种基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,其步骤如下:
步骤一:收集离线环境下2D假人的训练数据,对训练数据进行预处理得到训练数据集;
步骤二:构建并初始化人工神经网络的评估网络、动作网络、对象状态模型网络和价值奖励网络,并初始化各自的参数;利用步骤一得到的训练数据集离线预训练评估网络和动作网络;
离线预训练评估网络和动作网络:从预处理后的训练数据集中提取N个样本数据,离线训练对象状态模型网络和价值奖励网络,再利用这两个离线的对象状态模型网络和价值奖励网络提前模仿在线的训练过程对DDPG中的动作网络和评估网络进行预训练学习;
步骤三:利用步骤二中预训练后的评估网络初始化目标评估网络、动作网络初始化目标动作网络,初始化存储缓冲器R和当前的第一状态,智能体将状态转换数据存入存储缓冲器R作为训练在线网络的在线数据集;
步骤四:利用步骤三得到的在线数据集训练在线策略网络和在线Q网络,利用DDQN结构更新在线策略网络和在线Q网络;
步骤五:软更新:利用在线策略网络和在线Q网络更新目标评估网络和目标动作网络里的参数,利用目标评估网络和目标动作网络控制2D假人的状态。
2.根据权利要求1所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,所述训练数据是2D假人从起点走到终点过程中,通过行进并观察行进中获得的奖励或结果来学习在环境中行为,根据环境的反馈向正方向执行动作得到的数据;训练数据在环境状态和动作范围内,随机产生状态数据、动作和其对应的价值奖励及下个状态,即离线环境下从系统历史数据表格中收集2D假人的环境样本数据或产生随机动作,得到对应的奖励值和反馈奖励数据,其数据格式为(Si,Ai,Ri,Si+1),其中,Si为环境状态值,Ai为动作,智能体会根据传入的环境状态值Si执行动作Ai,Ri为反馈值或价值奖励值,Si+1为下一个环境的状态值;智能体在随机环境状态Si下,随机地选择一个行为动作Ai,执行该行动,执行动作后返回奖励Ri和新的环境状态Si+1,然后将这一轮数据(Si,Ai,Ri,Si+1)存入数据库。
3.根据权利要求2所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,所述训练数据的预处理的方法为:进行去除空值和异常值的处理,对数据的格式进行归一化转换;将零均值高斯噪声加入到动作中,将处理后的数据存储在训练数据集中。
4.根据权利要求1或2所述的基于离线模型预训练学习的DDPG算法的机器人控制方法,其特征在于,在原来DDPG的动作网络和评估网络结构上新构建了2个结构相似的全连接人工神经网络即对象状态预测网络predictNN和价值奖励网络Value NN,每层网络的人工神经元个数相近;新构建的对象状态预测网络predictNN用于预测下个时刻的状态,输入为当前状态和执行的动作,输出层为线性输出,输出为预测的下个状态,其他各层神经元使用relu作为激活函数;新构建的价值奖励网络Value NN用于计算当前状态执行动作后的反馈奖励,输入为当前状态和动作,最后一层神经网络为线性输出,输出奖励反馈价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中原工学院,未经中原工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011429368.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑废料粉碎装置
- 下一篇:一种医疗器械用线路收纳支架