首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于目标采样的模仿学习方法在审

申请号：	202210333460.0	申请日：	2022-03-30
公开（公告）号：	CN114819060A	公开（公告）日：	2022-07-29
发明（设计）人：	王勇;解永春;李林峰;陈奥;梁红义	申请（专利权）人：	北京控制工程研究所
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;B25J9/16
代理公司：	中国航天科技专利中心 11009	代理人：	程何
地址：	100080 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于目标采样模仿学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于目标采样的模仿学习方法，属于人工智能技术领域。本发明包括网络结构设计、参考轨迹生成及学习算法。通过把一个复杂任务的目标转换为一系列容易训练的子目标，并借助于模仿学习，大大降低复杂任务采用强化学习训练的难度，有效解决了强化学习中具有稀疏reward特征的任务难以训练的问题。

技术领域

本发明涉及一种基于目标采样的模仿学习方法，属于人工智能领域，用于提高训练效率，加快训练速度，解决强化学习中具有稀疏reward特征的任务难以训练的问题。

背景技术

基于深度强化学习方法研究“自学习”空间操作机器人，是指赋予机器人自学习能力，通过“模仿”和自主训练的方式训练机器人掌握各种操作技能，从而解决困扰当前空间操作的非结构化环境、遥操作大时延等难题，是目前机器人领域的重要研究方向。

机器人自我训练需要机器人通过反复试错学习操作技能，对于一些reward函数稀疏的任务(在大量试错中成功率极低)，目前的深度强化学习算法如DDPG/TRPO/PPO等都很难收敛或需要大量的学习训练时间。而在实际操作中很多任务都属于这种类型，如插孔、拧螺丝等。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提供了一种基于目标采样的模仿学习方法，通过把一个复杂任务的目标转换为一系列容易训练的子目标，并借助于模仿学习，大大降低复杂任务采用强化学习训练的难度，有效解决了强化学习中具有稀疏reward特征的任务难以训练的问题。

本发明的技术解决方案是：一种基于目标采样的模仿学习方法，包括：

参考轨迹设计：通过人工示教的方式遥控或拖动机械臂完成任务，并记录机械臂的运动轨迹；所述运动轨迹包括机械臂关节角和角速度；

构建神经网络；

执行基本算法流程；所述基本算法流程在强化学习的框架内，利用所述参考轨迹设计reward函数，并对所述神经网络进行训练。

进一步地，所述参考轨迹为τ^I＝{s_k,k∈[0,T]}；其中，s_k表示控制对象在第k时刻的观测状态，T表示参考轨迹持续的时间间隔。

进一步地，所述基本算法流程包括：

子目标采样及参考轨迹分段：根据任务特点把参考轨迹分成若干段，每段设定一个子目标，并依次进行训练；

切换条件设计：根据任务特点设计每个子目标满足的条件作为切换为下一个阶段的判断条件；

初始化：初始化网络及其它相关变量；

子目标序列训练：以第一个子目标为任务目标开始强化学习训练，在满足切换条件后，按照子目标序列依次进行其它子目标的训练。

进一步地，所述子目标采样的方法为：从参考轨迹τ^I中按照某一规则采样序列点G＝(g₁,g₂,…g_m)；其中g_m为最终任务目标；

所述参考轨迹分段是指在子目标采样的同时，按照子目标把整个参考轨迹τ^I分成m段，每段以该子目标为本段的任务目标。

进一步地，所述切换条件为由子目标g_k(s)切换到g_k+1(s)需要满足的条件C(s,g_k)∈C:S×S→R。

进一步地，所述初始化包括如下步骤：

随机初始化策略网络和价值网络，设定当前仿真时间T_k＝0，当前参考轨迹子目标g(s)＝g₀(s)，并选择一种on-policy强化学习算法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所，未经北京控制工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210333460.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种测微敏感器周期脉冲误差抑制方法及装置
下一篇：一种冗余机械臂零空间避障规划方法

同类专利

专利分类

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top