[发明专利]基于环境动态分解模型的深度强化学习方法在审
| 申请号: | 202111478934.2 | 申请日: | 2021-12-06 |
| 公开(公告)号: | CN114154582A | 公开(公告)日: | 2022-03-08 |
| 发明(设计)人: | 王聪;杨天培;郝建业;郑岩;马亿 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 环境 动态 分解 模型 深度 强化 学习方法 | ||
1.一种基于环境动态分解模型的深度强化学习方法,其特征在于,该方法具体包括以下步骤:
步骤1:进行环境动态分解,包括:首先对每个动作维度进行特征值的提取,这一特征值为每个动作维度与所有状态维度之间的皮尔逊相关系数;随后依据特征向量进行动作维度的聚类,将相似的动作维度聚类到一起,相异的分到不同的簇中;最后将聚类的结果作为对环境动态的分解结果;
步骤2:建立环境动态分解模型,包括:首先确定以多个环境动态模型建模环境动态的底层框架,模型的数量将对应于环境分解过程中所发现的子动态的数量,使用每一个模型分别预测每一个子动态;每一个子动态对应的子模型都输入当前的状态以及相对应的动作空间中的动作,来预测一个相应的变量,输出一个隐空间变量;随后用子模型来预测一个隐空间变量;在所有的子模型预测完毕后,把所有子模型的预测结果融合起来,通过一个融合神经网络,最后输出一个预测结果;从这个预测结果中,使用解码网络来解码出下一个时刻的状态s以及这一过程的奖励r;
步骤3:实现环境动态分解模型与深度强化学习的结合,优化非基于模型的深度强化学习方法。
2.如权利要求1所述的基于环境动态分解模型的深度强化学习方法,其特征在于,所述步骤1进一步包括以下处理:
步骤1.1:确定环境动态与动作之间的关系;
步骤1.2:对动作维度进行特征提取;
对动作维度进行分解相当于对环境动态进行分解,首先对每个动作维度进行相关特征值的提取,具体每个动作维度与所有状态维度之间的皮尔逊相关系数来作为该动作维度的特征向量;动作维度的特征向量表达式如下:
Fi=|fi,1,...,fi,n|
fi,j表达式如下:
其中,n为状态维度大小,a为动作向量,Δs为由于执行动作a而产生的状态变化量,i,j为对应的维度,cov()为协方差,为第i维度的动作向量的标准差,为第j维度的状态变化量的标准差,fi,j为动作维度i与状态维度j的变化量之间的皮尔逊相关系数数值;
步骤1.3:根据动作维度的特征向量使用聚类算法进行动作空间的环境动态分解;
以每个动作维度的特征向量作为是否与其他动作维度进行聚类的依据;同时会设置一个阈值,当同一个簇内的动作维度的相似性较高,不同簇间的动作维度间的差异性较高时,将终止聚类过程,并且使用当前的聚类结果作为分解方案。
3.如权利要求1所述的基于环境动态分解模型的深度强化学习方法,其特征在于,所述隐空间变量如下式所示:
其中,h为空间变量,s为上一时间步t-1的状态,为上一时间步t-1在Gm空间下的动作值,k为环境动态分解为子动态的个数,为对环境动态分解后的第m个环境子动态的建模。
4.如权利要求1所述的基于环境动态分解模型的深度强化学习方法,其特征在于,所述步骤3采用dyna-style类方法,具体包括:使用建模的环境模型来产生更多的训练数据,来进行策略优化。
5.如权利要求1所述的基于环境动态分解模型的深度强化学习方法,其特征在于,所述步骤3采用analytical gradient方法的,具体包括:首先使用环境模型产生很多条轨迹,随后使用一种收益的计算方式来计算每条轨迹上面的收益,最后直接最大化这些计算出来的收益,直接优化模型产生的轨迹,来进行策略优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111478934.2/1.html,转载请声明来源钻瓜专利网。





