[发明专利]一种深度强化学习训练方法及计算机可读存储介质在审
申请号: | 202110208061.7 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112819159A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 张甜甜;袁博 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06K9/62 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 孟学英 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 强化 学习 训练 方法 计算机 可读 存储 介质 | ||
本发明提供一种深度强化学习训练方法及计算机可读存储介质,方法包括:指定情境数量,初始化深度强化学习多头神经网络模型的权重参数;智能体随机决策,收集样本存于经验回放缓冲区;依据情境数量,采用在线聚类算法实现自适应情境划分,得到截止当前时刻的情境划分和各情境中心;从经验回放缓冲区随机采样样本,并将各样本分配至距离最近的情境中;依据样本对应情境训练共享特征提取器及相应输出头的权重参数,结合知识蒸馏损失对其他输出头权重参数进行同步更新,估计值函数;下一时间步,智能体依据值函数继续决策,收集样本存于经验回放缓冲区,重复上述步骤,直至完成预先指定的训练次数或达到收敛。提升了模型训练的稳定性和可塑性。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种深度强化学习训练方法及计算机可读存储介质。
背景技术
在强化学习领域,深度神经网络强大的学习能力使得智能体直接从高维连续环境中学习有效的控制策略成为可能。理论上,为了实现稳定的训练性能,神经网络一般要求训练数据满足独立同分布(i.i.d.)的特点,这在一般的强化学习范式中几乎是不可能成立的。强化学习边探索边学习的训练模式使得训练数据具有高度时间相关和非平稳的固有属性,由于神经网络在训练过程前后采用的训练数据分布不同,后期训练得到的权重很可能干扰甚至完全覆盖前期已经学习到的好的策略,从而导致模型性能受到干扰甚至是突然崩溃,使得模型训练过程非常不稳定,甚至很难收敛到优策略。对应于实际具体应用,如人工智能围棋系统等各类游戏对战、机器人调优工业设备参数等工业自动化应用、自动驾驶领域车辆运动规划等凡是利用强化学习来自动化寻求最佳序贯决策的真实应用场景,则表现为强化学习智能体在特定环境中学习完成特定任务的策略过程非常不稳定,随着学习的进行,智能体可能会突然忘记已经学习到的稍好的策略以致于面对相应的环境场景做出错误的决策,从而必须重新从头开始再次学习,后期再次遗忘并再次重新学习,如此反复,使得智能体学习优策略的效率大大降低,甚至最终无法学习到完成相应任务的优策略。
以上问题被称为灾难性干扰和遗忘(Catastrophic Interference andForgetting)。现有基于值的深度强化学习训练框架一般采用经验回放和固定目标网络两种策略来缓解灾难性干扰和遗忘问题,其中,经验回放对计算内存有很高的要求,尤其是当处理复杂图像或视频输入问题时,为了能更好地产生近似独立同分布的训练数据,需要设置百万甚至更高级别的经验存储缓冲区大小,这对一般计算机而言是非常困难的;此外,固定目标网络也只能使输出目标相对平稳,单独使用时对灾难性干扰和遗忘问题改善效果非常有限。
现有技术中缺乏解决强化学习领域神经网络模型在训练过程中所遇到的灾难性干扰和遗忘问题的方案。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为解决现有深度强化学习神经网络模型在训练过程中普遍遭遇的灾难性干扰和遗忘问题,提供一种深度强化学习训练方法及计算机可读存储介质。
为了解决上述问题,本发明采用的技术方案如下所述:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110208061.7/2.html,转载请声明来源钻瓜专利网。