[发明专利]一种基于目标导向的深度强化学习中优先经验回放方法在审

申请号：	202310274087.0	申请日：	2023-03-21
公开（公告）号：	CN116185595A	公开（公告）日：	2023-05-30
发明（设计）人：	曹任捷;孔燕	申请（专利权）人：	南京信息工程大学
主分类号：	G06F9/48	分类号：	G06F9/48;G06F18/214;G06N20/00;G06N3/08
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210044 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于目标导向深度强化学习优先经验回放方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于目标导向的深度强化学习中优先经验回放方法，步骤如下：对gym mountain_carv0的数据进行预处理；根据智能体小车在不同状态下与目标状态下的差异作为目标导向因子；利用DQN算法构建深度强化学习框架；根据行为值函数的TD‑error去量化经验的优先级的第一部分；将目标导向因子加入到优先级定义中成为优先级的第二部分，不断对整个网络进行更新，以求得到更好的结果。本发明保留了以往优先经验回放的优越性，也科学地完善了优先级的重新定义，对优先级的定义具有重要的参考意义；本发明提出的目标导向因子α，对于不同状态之间进行了合理的量化，对于经验回放中的优先级具有重要的研究意义。

技术领域

本发明涉及深度强化学习经验回放问题，特别是一种基于目标导向的深度强化学习中优先经验回放方法。

背景技术

在强化学习中，为了使智能体具有更好的学习能力，包含丰富环境信息的经验和历史经验尤为重要。持续学习经验将使智能体在采取行动时获得最大的回报。在在线强化学习中，智能体在学习经验时通常会批量的更新迭代神经网络模型的参数，但通常会丢弃使用过的经验。因此，总会有两个问题。第一个是强相关性的经验会破坏许多随机梯度算法，第二个是每次参数更新都会使曾经有用的经验没有得到充分利用。经验回放通过混合不同时期的经验来打破经验的相关性，并使一些罕见的经验被多次回放学习，从而解决了这两个问题。在DQN算法中，证明了通过使用经验回放来稳定由深度神经网络表示的值函数的训练。具体地说，DQN使用一个大的滑动窗口回放的经验缓冲区，从中随机采样，并平均回放放每个经验8次。一般来说，经验回放可以减少学习所需的样本量，并用更多的计算数据和更多的内存来代替样本量——这些资源通常比RL智能体与其环境交互更划算。在随机经验回放中，由于经验是随机抽样进行回放的，因此不考虑经验的重要性级别。尽管优先经验回放通过TD-error的值考虑了经验的不同重要性，但它没有考虑智能体在不同状态下与最终目标状态之间的差异所对智能体学习的影响。与随机经验回放和优先经验回放相比，提高与距离目标状态更近经验的优先级可以使加快智能体学习的速度。关键思想是RL智能体可以通过目标导向因子α从而潜在诱导智能体更快速的到达目标状态。

发明内容

发明目的：本发明的目的是提供一种基于目标导向的深度强化学习中优先经验回放方法，从而根据智能体不同状态下的差异性来划分经验不同的优先级，更高效地实现智能到达目标，进一步推进强化学习中经验回放的问题研究。

技术方案：本发明所述的一种基于目标导向的深度强化学习中优先经验回放方法，包括以下步骤：

步骤1、对gym mountain_carv0的数据进行预处理；

步骤2、根据智能体小车在不同状态下与目标状态下的差异作为目标导向因子，公式如下：

式中，X_终是目标状态下智能体小车所处的横坐标值，X_t+1是t+1时刻下智能体小车所处的横坐标值；

步骤3、利用DQN算法构建深度强化学习框架；

步骤4、根据行为值函数的TD-error去量化经验的优先级的第一部分，其公式为：

p＝|δ_t|+∈

式中，γ是折扣因子，0＜γ＜1，r_t+1是智能体t+1时刻下的即时奖励，s_t+1是智能体在t+1是时刻下的状态，a_t+1是智能体在t+时刻下采取的动作，|δ_t|是t时刻下TD-error的绝对值，∈是一个非零的常数；

步骤5、将目标导向因子加入到优先级定义中，优先级公式如下：

p_i＝p+α