[发明专利]一种基于概率的策略迁移方法在审

专利信息
申请号: 202210255129.1 申请日: 2022-03-15
公开(公告)号: CN114781645A 公开(公告)日: 2022-07-22
发明(设计)人: 解永春;李林峰;王勇;陈奥 申请(专利权)人: 北京控制工程研究所
主分类号: G06N20/00 分类号: G06N20/00;G06N3/08
代理公司: 中国航天科技专利中心 11009 代理人: 程何
地址: 100080 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 概率 策略 迁移 方法
【权利要求书】:

1.一种基于概率的策略迁移方法,其特征在于,包括:

构建策略网络和Q函数估计器;

虚拟环境接收策略网络的输出,以及根据预设策略决定是否接收动作探索,产生虚拟环境输出;所述虚拟环境为实体系统对应的仿真模型;

根据预设策略决定是否在虚拟环境输出上叠加环境摄动,产生训练数据;

策略网络和Q函数估计器利用训练数据进行更新,同时策略网络根据Q函数估计器的输出,使用预设策略梯度优化方法进行更新;当且仅当达到训练结束条件时停止更新;

将训练好的策略网络部署至虚拟环境对应实体系统,实现相应系统功能。

2.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于,所述产生训练数据,具体包括:

定义虚拟环境的系统状态为s,此时刻奖励为r,下一时刻状态为s’;给定s,对虚拟环境采样就获得s’~p(s,a);

定义策略网络π,以状态s为输入,以动作a为输出;

定义Q函数估计器,以s和a为输入,输出s状态施加动作a的累积奖励期望;

采集数据{s,a,s′,rt,i}t=0:T.i=0:N,形成训练数据;其中,s为当前时刻状态,a为当前时刻动作,s′为下一时刻状态,r为当前时刻奖励,t为时间,i为采样轨迹编号,T为单个采样轨迹的总时间长度,N为采样轨迹总数。

3.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于,所述预设策略为:通过控制变量的方式,将动作探索和环境摄动分别设置在Q函数估计器的不确定性估计中。

4.根据权利要求3所述的一种基于概率的策略迁移方法,其特征在于,所述将动作探索和环境摄动分别设置在Q函数估计器的不确定性估计中,具体为:

步骤2.1,施加动作探索e,不施加环境摄动Δ,通过Q函数估计器前推N轮,估计出偶然不确定性σale(s,a);

步骤2.2,施加环境摄动Δ,不施加动作探索e,同样通过Q函数估计器前推N轮,估计出认知不确定性σepi(s,a);

步骤2.3,如果终止条件满足,则结束;否则重复步骤2.1和步骤2.2。

5.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于:所述预设策略梯度优化方法中的策略梯度估计的具体形式为:

其中,st为当前时刻状态,at为当前时刻动作,为当前时刻状态-动作值函数的估计值,即权利要求2中定义的Q函数估计器的输出值,πθ为策略网络,θ是策略网络的参数,πθ(at(i)|st(i))为策略网络的输出,t为时间,i为采样轨迹编号,T为单个采样轨迹的总时间长度,N为采样轨迹总数。

6.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于:所述虚拟环境为根据真实机器人操作任务构建的仿真系统,与实体的机器人操作场景对应,用于生成训练数据,具体包括:1)机械臂多刚体动力学计算模型,以机械臂的当前时刻状态、当前时刻动作信号为输入,通过数值计算前推得到机械臂的下一时刻状态;2)操作对象属性计算模型,用于模拟操作对象的物理属性、视觉属性。

7.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于:所述环境摄动的具体施加方式是:调节根据权利要求6所述的操作对象属性计算模型的参数,实现对操作对象的物理属性、视觉属性变动的模拟。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210255129.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top