[发明专利]基于环境动态分解模型的深度强化学习方法在审

申请号：	202111478934.2	申请日：	2021-12-06
公开（公告）号：	CN114154582A	公开（公告）日：	2022-03-08
发明（设计）人：	王聪;杨天培;郝建业;郑岩;马亿	申请（专利权）人：	天津大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	李素兰
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于环境动态分解模型深度强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种本发明的基于环境动态分解模型的深度强化学习方法，包括环境分解方式的确定、环境分解模型的建立和与深度强化学习结合，优化非基于模型的深度强化学习方法三个部分，动态进行分解建模来提高环境建模质量，最后我们结合基于模型的深度强化学习方法，来生成策略。与现有技术相比，本发明实现了分解模型与一般强化学习方法的结合，通过提出新的分解网络结构，极大地提高了环境建模的准确性，从而提高了基于模型的深度强化学习方法的学习效果。

技术领域

本发明涉及深度强化学习领域，特别是涉及基于模型的深度强化学习方法。

背景技术

深度强化学习是一种解决顺序决策问题的通用学习框架，在许多领域都取得了显著的进展。一般来说，根据是否学习用于策略训练的世界模型，强化学习方法分为两类包括无模型深度的强化学习方法和基于模型的深度强化学习方法。基于模型的深度强化学习方法目的在于利用收集的经验数据来对环境建模，以帮助策略的学习；可以以较少的训练数据，学习到较好的策略。环境建模提高了样本效率，但往往具有有限的渐近性能，且存在模型误差。在环境建模过程中存在的模型误差使得基于模型的强化学习效果受到限制。

现有的基于模型的强化学习算法按照其遵循的范式可分为四类：第一类通过世界模型生成假想数据，并通过无模型强化学习算法使用这些数据进行策略训练；第二类利用世界模型的可微性，生成策略优化的可微轨迹；第三类得到一个精确的值函数，使用环境模型，产生多条轨迹，并基于这些轨迹计算时序差分目标值；第四类通过将最优控制算法(如MPC)与已有的世界模型相结合,来直接生成有效的策略。无论哪种范式，基于模型的强化学习算法的训练效果取决于世界模型的准确性，即得到的世界模型越准确，生成的数据就越可靠，最终可以获得更好的策略效果。因此，提高世界模型的精度是基于模型的强化学习算法的关键。为此，现有的方法采用了各种技术来提高模型的精度。例如，有些方法不是直接预测下一个状态，而是构建一个环境模型来预测状态的变化。有些方法使用模型集成来建模环境，并且通过模型集成的方式来估计建模的不确定性。还有些方法是直接优化多步预测误差来降低长轨迹生成中的模型误差。然而，这些方法都是以黑盒的方式改进了环境建模，忽略了环境动态的内部结构。

因此，本发明希望通过设计分解预测的网络结构，来对环境进行更准确的建模。本发明亟待解决的技术问题是如何对环境的动态进行分解。

发明内容

针对基于模型的深度强化学习建模质量较低的问题，本发明旨在提出了一种基于环境动态分解模型的深度强化学习方法，通过聚类算法分解动态环境模型并结合强化学习方法进行策略优化，实现了高效的强化学习方法。

本发明利用以下技术方案实现：

一种基于环境动态分解模型的深度强化学习方法，具体包括以下步骤：

步骤1：进行环境动态分解，包括：首先对每个动作维度进行特征值的提取，这一特征值为每个动作维度与所有状态维度之间的皮尔逊相关系数；随后依据特征向量进行动作维度的聚类，将相似的动作维度聚类到一起，相异的分到不同的簇中；最后将聚类的结果作为对环境动态的分解结果；

步骤2：建立环境动态分解模型，包括：首先确定以多个环境模型建模环境的底层框架，模型模型的数量将对应于环境分解过程中所发现的子动态的数量，使用每一个模型分别预测每一个子动态；每一个子动态对应的子模型都输入当前的状态以及相对应的动作空间中的动作，来预测一个相应的变量，输出一个隐空间变量；随后用子模型来预测一个隐空间变量；在所有的子模型预测完毕后，把所有子模型的预测结果融合起来，通过一个融合神经网络，最后输出一个预测结果；从这个预测结果中，使用解码网络来解码出下一个时刻的状态s，以及这一过程的奖励r；

步骤3：实现环境动态分解模型与深度强化学习的结合，优化非基于模型的深度强化学习方法。

所述步骤1进一步包括以下处理：

步骤1.1：确定环境动态与动作之间的关系；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111478934.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种用于BIM翻模的图像分割方法、电子设备及存储介质
下一篇：一种空调的除湿控制方法、装置、存储介质及空调

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于环境动态分解模型的深度强化学习方法在审

专利文献下载