[发明专利]基于经验新鲜度提升深度强化学习收敛速度的方法及系统在审
申请号: | 202310078559.5 | 申请日: | 2023-01-16 |
公开(公告)号: | CN116090548A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 马崛;宁德军 | 申请(专利权)人: | 中国科学院上海高等研究院 |
主分类号: | G06N3/092 | 分类号: | G06N3/092;G06N3/0985;G06N3/047;G06N3/048;G06N3/049 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 倪静 |
地址: | 201210 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 经验 新鲜 提升 深度 强化 学习 收敛 速度 方法 系统 | ||
本发明提供一种基于经验新鲜度提升深度强化学习收敛速度的方法及系统,包括:构建DQN网络模型并设置环境超参数,初始化当前价值网络和目标价值网络的网络参数,初始化经验回放区并设置回放计数数组和生命周期指针;基于动作选择策略进行经验积累,计算经验的时序差分误差和新鲜度优先级,并根据生命周期指针更新所述经验回放区;根据经验的采样概率从所述经验回放区中进行采样并更新所述回放计数数组,利用采样到的经验组训练当前价值网络并更新其网络内部参数,以得到最优动作。本申请一方面通过引入新鲜度折扣因子来提高新经验的优先级,另一方面通过引入生命周期指针提高经验回放区的置换效率,从而提升深度强化学习算法的收敛速度。
技术领域
本申请涉及深度强化学习及经验回放技术领域,特别是涉及一种基于经验新鲜度提升深度强化学习收敛速度的方法及系统。
背景技术
随着人工智能技术的兴起,深度强化学习成为了人工智能领域研究的热点之一。作为深度学习与强化学习的结合,深度强化学习被广泛应用于诸如医疗健康、智能电网等领域,并取得了显著的成效。在大多数深度强化学习算法中,都会运用经验回放技术来提高经验利用率并且打破经验的时间相关性。
优先经验回放是经验回放技术中应用最广泛的技术。它根据经验的时序差分误差分配给每个经验各自的优先级。经验的时序差分误差的绝对值越高,其优先级也就越大,被采样的概率也就越大。通过这种方法,可以让智能体更快地学习到非常成功的行为,或者是十分错误的动作。此外,结合经验回放在优先经验回放的基础之上,将最新一次获得的经验直接放入小样本去训练神经网络,以此来解决经验回放区过大的问题。
在优先经验回放算法中,主要是根据经验的时序差分误差来对经验进行价值性划分。只要经验被存入经验回放区中,就有可能被采样到小样本中。经验被回放之后,算法会更新其时序差分误差,并进一步调整其优先级。根据优先经验回放的机制,任何一个经验都可以被回放多次或者一次都未被回放。经验的新鲜度侧面反映了经验内部包含的潜在价值,但这一因素却长期以来被人们所忽略。对于两个有着相似时序差分误差的经验而言,回放次数更少的经验拥有更多潜在的价值信息,所以,相较于多次回放的经验,在智能体学习过程中,应给予回放次数较少的经验更高的优先级。但目前尚缺乏一种在优先经验回放算法的基础上,通过合理考虑经验的新鲜度,使更新的经验得到更高的优先级,并进一步改进使用优先经验回放技术的深度强化学习算法的收敛速度和性能的方法。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于经验新鲜度提升深度强化学习收敛速度的方法及系统,用于解决现有技术中缺乏考虑经验新鲜度来改进深度强化学习算法的收敛速度和性能的方法的技术问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种基于经验新鲜度提升深度强化学习收敛速度的方法,所述方法包括:S1:构建DQN网络模型并设置环境超参数,初始化当前价值网络和目标价值网络的网络参数,初始化经验回放区并设置回放计数数组和生命周期指针;S2:基于动作选择策略进行经验积累,计算经验的时序差分误差和新鲜度优先级,并根据生命周期指针更新所述经验回放区;S3:根据经验的采样概率从所述经验回放区中进行采样并更新所述回放计数数组,利用采样到的经验组训练当前价值网络并更新其网络内部参数,以得到最优动作。
于本申请的第一方面的一些实施例中,所述环境超参数包括:采样数量(小样本数)、网络学习率、经验回放区容量、训练轮数、新鲜度折扣因子、回报折扣因子;所述网络参数包括网络层数与节点数、激活函数、优化器。
于本申请的第一方面的一些实施例中,所述回放计数数组与经验回放区大小相同,用于存储经验回放区每个位置上经验被采样的次数;所述生命周期指针指向经验回放区中对应最小绝对时序差分误差的经验的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海高等研究院,未经中国科学院上海高等研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310078559.5/2.html,转载请声明来源钻瓜专利网。