[发明专利]一种基于概率的策略迁移方法在审
申请号: | 202210255129.1 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114781645A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 解永春;李林峰;王勇;陈奥 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 程何 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 策略 迁移 方法 | ||
1.一种基于概率的策略迁移方法,其特征在于,包括:
构建策略网络和Q函数估计器;
虚拟环境接收策略网络的输出,以及根据预设策略决定是否接收动作探索,产生虚拟环境输出;所述虚拟环境为实体系统对应的仿真模型;
根据预设策略决定是否在虚拟环境输出上叠加环境摄动,产生训练数据;
策略网络和Q函数估计器利用训练数据进行更新,同时策略网络根据Q函数估计器的输出,使用预设策略梯度优化方法进行更新;当且仅当达到训练结束条件时停止更新;
将训练好的策略网络部署至虚拟环境对应实体系统,实现相应系统功能。
2.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于,所述产生训练数据,具体包括:
定义虚拟环境的系统状态为s,此时刻奖励为r,下一时刻状态为s’;给定s,对虚拟环境采样就获得s’~p(s,a);
定义策略网络π,以状态s为输入,以动作a为输出;
定义Q函数估计器,以s和a为输入,输出s状态施加动作a的累积奖励期望;
采集数据{s,a,s′,rt,i}t=0:T.i=0:N,形成训练数据;其中,s为当前时刻状态,a为当前时刻动作,s′为下一时刻状态,r为当前时刻奖励,t为时间,i为采样轨迹编号,T为单个采样轨迹的总时间长度,N为采样轨迹总数。
3.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于,所述预设策略为:通过控制变量的方式,将动作探索和环境摄动分别设置在Q函数估计器的不确定性估计中。
4.根据权利要求3所述的一种基于概率的策略迁移方法,其特征在于,所述将动作探索和环境摄动分别设置在Q函数估计器的不确定性估计中,具体为:
步骤2.1,施加动作探索e,不施加环境摄动Δ,通过Q函数估计器前推N轮,估计出偶然不确定性σale(s,a);
步骤2.2,施加环境摄动Δ,不施加动作探索e,同样通过Q函数估计器前推N轮,估计出认知不确定性σepi(s,a);
步骤2.3,如果终止条件满足,则结束;否则重复步骤2.1和步骤2.2。
5.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于:所述预设策略梯度优化方法中的策略梯度估计的具体形式为:
其中,st为当前时刻状态,at为当前时刻动作,为当前时刻状态-动作值函数的估计值,即权利要求2中定义的Q函数估计器的输出值,πθ为策略网络,θ是策略网络的参数,πθ(at(i)|st(i))为策略网络的输出,t为时间,i为采样轨迹编号,T为单个采样轨迹的总时间长度,N为采样轨迹总数。
6.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于:所述虚拟环境为根据真实机器人操作任务构建的仿真系统,与实体的机器人操作场景对应,用于生成训练数据,具体包括:1)机械臂多刚体动力学计算模型,以机械臂的当前时刻状态、当前时刻动作信号为输入,通过数值计算前推得到机械臂的下一时刻状态;2)操作对象属性计算模型,用于模拟操作对象的物理属性、视觉属性。
7.根据权利要求1所述的一种基于概率的策略迁移方法,其特征在于:所述环境摄动的具体施加方式是:调节根据权利要求6所述的操作对象属性计算模型的参数,实现对操作对象的物理属性、视觉属性变动的模拟。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210255129.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种悬臂式三轴直线坐标结构
- 下一篇:敏感词匹配方法、装置及设备