[发明专利]一种基于模拟器训练的机器人控制方法有效
申请号: | 201810054083.0 | 申请日: | 2018-01-19 |
公开(公告)号: | CN108255059B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 俞扬;张超;周志华 | 申请(专利权)人: | 南京大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 210008 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种基于模拟器训练的机器人控制方法,对机器人待执行任务环境进行仿真建模,建立模拟器;在模拟器中,随机生成T个不同性能参数的机器人,各机器人分别训练策略,最终得到由各自策略构成的基策略集;在模拟器中,另外随机生成M个不同性能参数的机器人,并在此M个机器人中优化得到各机器人在执行任务时所使用的基策略集的最优组合权重,将各机器人执行随机动作序列得到的特征F |
||
搜索关键词: | 一种 基于 模拟器 训练 机器人 控制 方法 | ||
【主权项】:
1.一种基于模拟器训练的机器人控制方法,其特征在于,包括以下步骤:步骤1:对待执行任务环境进行仿真建模,建立模拟器,并针对任务设计构建强化学习四要素:状态s、动作a、奖励函数R(s,a)、状态转移概率P(s'|s,a);步骤2:在模拟器中,随机生成T个不同性能参数的机器人,并使用强化学习算法对各机器人分别进行训练得到各自动作策略π作为基策略,最终得到基策略集
和组合策略
其中,w为权重系数;步骤3:在模拟器中,另外随机生成M个不同性能参数的机器人,并在此M个机器人中优化得到各机器人在执行任务时所使用的基策略集的最优组合权重
随后使此M个机器人均执行给定的一串初始随机动作A,并将各机器人执行动作A后的输出状态作为特征Fi(A),将各机器人特征Fi(A)和最优组合权重
分别作为回归模型的输入和标签,优化得到最优的回归模型θ,即
步骤4:在模拟器中,另外随机生成N个不同性能参数的机器人,在这N个机器人上优化出最优动作
步骤5:在同一任务中,使未知的不同性能参数的机器人执行最优动作A*,得到该机器人的最优动作策略![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810054083.0/,转载请声明来源钻瓜专利网。