[发明专利]一种基于概率的策略迁移方法在审
申请号: | 202210255129.1 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114781645A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 解永春;李林峰;王勇;陈奥 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 程何 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 策略 迁移 方法 | ||
一种基于概率的策略迁移方法,属于人工智能技术领域。机器人操作等连续控制任务的环境受高动态、不确定等影响,实际上很难利用虚拟环境逼近真实环境。本发明方法包括:通过Monte Carlo dropout构建概率的Q函数估计器,并与策略梯度优化进行结合,使得算法具备辨识环境不确定性的能力。具体通过虚拟环境训练数据采集、不确定性分解与推断、策略梯度优化、真实环境运行性能评估,实现了环境不确定性的分解与度量,改善了策略学习效率与策略运行性能。
技术领域
本发明涉及一种基于概率的策略迁移方法,属于人工智能技术领域。
背景技术
虚拟-真实策略迁移性能不佳是制约强化学习深入应用的重要因素。对于一般的连续控制学习问题,常用方案是在虚拟环境学习训练,以零样本或少样本的代价将训练好的策略网络迁移到真实环境,涉及两种环境。而对于空间机器人操作这类问题,由于需要大量的地面可靠性试验,则至少需要三种环境间的迁移,即虚拟环境、地面试验环境、真实空间环境。这类任务的环境受高动态、不确定等影响,实际上很难利用虚拟环境逼近真实环境,制约了策略学习效率与策略运行性能的进一步提升。因此,研究如何评价环境之间的差异,度量环境内、环境间的不确定性,提出基于概率的虚拟-真实策略迁移方法,将有利于改善策略迁移性能。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种基于概率的策略迁移方法,通过构建概率的Q函数估计器,并与策略梯度优化进行结合,使得算法具备辨识环境不确定性的能力,形成了一种基于概率的虚拟-真实策略迁移方法。构建的方法有助于提升算法的泛化与迁移性能,进而提高策略运行的鲁棒性和可靠性,具有实际工程意义。
本发明的技术解决方案是:一种基于概率的策略迁移方法,包括如下步骤:
构建策略网络和Q函数估计器;
虚拟环境接收策略网络的输出,以及根据预设策略决定是否接收动作探索,产生虚拟环境输出;所述虚拟环境为实体系统对应的仿真模型;
根据预设策略决定是否在虚拟环境输出上叠加环境摄动,产生训练数据;
策略网络和Q函数估计器利用训练数据进行更新,同时策略网络根据Q函数估计器的输出,使用预设策略梯度优化方法进行更新;当且仅当达到训练结束条件时停止更新;
将训练好的策略网络部署至虚拟环境对应实体系统,实现相应系统功能。
进一步地,所述产生训练数据,具体包括:
定义虚拟环境的系统状态为s,此时刻奖励为r,下一时刻状态为s’;给定s,对虚拟环境采样就获得s’~p(s,a);
定义策略网络π,以状态s为输入,以动作a为输出;
定义Q函数估计器,以s和a为输入,输出s状态施加动作a的累积奖励期望;
采集数据{s,a,s′,rt,i}t=0:T.i=0:N,形成训练数据;其中,s为当前时刻状态,a为当前时刻动作,s′为下一时刻状态,r为当前时刻奖励,t为时间,i为采样轨迹编号,T为单个采样轨迹的总时间长度,N为采样轨迹总数。
进一步地,所述预设策略为:通过控制变量的方式,将动作探索和环境摄动分别设置在Q函数估计器的不确定性估计中。
进一步地,所述将动作探索和环境摄动分别设置在Q函数估计器的不确定性估计中,具体为:
步骤2.1,施加动作探索e,不施加环境摄动Δ,通过Q函数估计器前推N轮,估计出偶然不确定性σale(s,a);
步骤2.2,施加环境摄动Δ,不施加动作探索e,同样通过Q函数估计器前推N轮,估计出认知不确定性σepi(s,a);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210255129.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种悬臂式三轴直线坐标结构
- 下一篇:敏感词匹配方法、装置及设备