[发明专利]一种基于策略梯度的机器人学习控制方法在审
申请号: | 201710321632.1 | 申请日: | 2017-05-09 |
公开(公告)号: | CN107020636A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 李军;沈广田;陈剑斌;高杨建;许阳 | 申请(专利权)人: | 重庆大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400044 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 策略 梯度 机器人 学习 控制 方法 | ||
技术领域
本发明涉及机器人学习控制技术,特别涉及一种可以将控制策略参数化的机器人学习控制方法。
背景技术
机器人学习控制领域已经有一些技术方法,其中最常用是基于价值函数近似的方法。为了获得状态-动作对的价值,通常使用TD(时序差分)学习算法和Q-学习算法。然而这些方法对于离散的状态—动作空间比较有效,当解决连续状态—动作问题时,就会出现很多问题。在连续空间中,为了实现对价值函数的可靠估计,往往需要在相应空间中采集大量数据,这在实际复杂的机器人系统中是很难实现的。并且随着机器人自由度不断增加又会出现“维数灾难”的问题。
此外,基于价值函数近似的方法还面临着其他问题:1、这种方法常用于对确定性策略的求解,对于随机性策略的处理存在很大困难,但是最佳策略往往是随机的;2、在一个动作的估计价值中一个随机的小的变化将会导致这个动作可能不会被执行,这种不连续的变化已经被确认为保证算法收敛的关键障碍;3、该方法无法保证在机器人学习过程中向机器人发送的指令均是安全可靠的。因此,该方法大多先是在仿真环境中搜索策略,无法直接应用在实际的物理环境中。
因此急需一种可用于不同类型的机器人,尤其是多自由度机器人,具备学习复杂动作、求解随机性策略的能力,从而提高机器人的智能性,降低学习过程中的危险性,缩短机器人学习时间,简化控制器设计难度的机器人学习控制方法。
发明内容
有鉴于此,为了解决上述问题,本发明提出了一种可用于不同类型的机器人,尤其是多自由度机器人,具备学习复杂动作、求解随机性策略的能力,从而提高机器人的智能性,降低学习过程中的危险性,缩短机器人学习时间,简化控制器设计难度的机器人学习控制方法。
本发明的目的就是提出一种基于策略梯度的机器人学习控制方法,主要是通过以下技术方案来实现的:
本发明提出的一种基于策略梯度的机器人学习控制方法,包括以下步骤:
S1:输入机器人运动过程中的状态信息数据以及与环境交互的感知信息数据;
S2:根据机器人获取的状态信息数据以及环境感知信息数据,计算及时奖励以及价值函数的近似估计模型;
S3:根据获得的累积奖励以及价值函数近似估计模型,对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态;
S4:输出机器人实际执行的动作命令。
进一步,所述步骤S1中的所述机器人运动状态信息数据和环境感知信息数据的输入采取独立输入模式。运动状态信息为机器人每个自由度当前时刻位置和速度的观测数据,环境感知数据为可表达环境动态模型的传感数据。
进一步,所述步骤S2中的及时奖励根据环境感知信息数据以及奖励函数确定。
进一步,所述步骤S2的价值函数近似模型由机器人运动状态特征向量以及权重向量确定。在估计价值函数的过程中,采用梯度下降法调整权重向量,同时采用Q-学习算法估计状态-动作对的价值。
进一步,所述步骤S3中利用策略梯度方法,根据累积奖励以及价值函数近似估计模型对机器人学习控制器的策略参数进行调整,优化,使机器人达到理想的运行状态;
本发明的特点在于:采用策略梯度方法可以处理连续性场景,求解随机性策略。将控制策略参数化,可以缩减参数个数,处理多自由机器人学习问题。策略梯度采用概率化输出,克服了传统基于价值函数近似导致的不收敛问题。本文提出的基于策略梯度的激励学习方法可用于不同类型机器人,处理多自由度机器人学习复杂动作的问题、从而提高了机器人的学习能力和智能性,降低了学习过程中的危险性,缩短了机器人学习时间,简化了控制器设计难度。
附图说明
为了使本发明的目的,技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明提供的基于策略梯度的机器人学习控制方法的结构框图。
图2为本发明提供的基于策略梯度的机器人学习控制方法的原理图。
具体实施方式
以下将结合附图,对本发明所述的方法做进一步的详细说明。图1为本发明提供的基于策略梯度的机器人学习控制方法的结构框图;图2为本发明提供的基于策略梯度的机器人学习控制方法的原理图,如图所示:本发明提供的基于策略梯度的机器人学习控制方法,包括以下步骤:
S1:输入机器人运动过程中的状态信息数据以及与环境交互的感知信息数据;
S2:根据机器人获取的状态信息数据以及环境感知信息数据,计算及时奖励以及价值函数的近似估计模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710321632.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在多机器人上运行多主节点机器人操作系统的方法
- 下一篇:机器人交互式游戏系统