[发明专利]一种面向困难探索环境的记忆保持课程学习方法在审
申请号: | 202011169070.1 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112633466A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 曾政文;韦佳 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向困难探索环境的记忆保持课程学习方法,用于困难探索环境下的策略求解,包括以下步骤:(1)提出双重记忆系统,包括短期记忆智能体和长期记忆智能体;(2)将短期记忆智能体交互产生的经验片段存储到记忆缓存池,采用基于KL散度的损失函数作为策略蒸馏的损失函数;(3)采用贝叶斯在线学习中后验的拉普拉斯近似估计作为各个任务记忆保持的损失函数,任务的信息通过在线拉普拉斯逼近顺序合并到后验中,采用了克罗内克分解近似的方法对费舍矩阵近似块对角分解;(4)在长期记忆智能体策略网络中的卷积层中加入零填充操作。所述方法在困难探索环境下进行有效的策略求解,并缓解记忆遗忘问题。 | ||
搜索关键词: | 一种 面向 困难 探索 环境 记忆 保持 课程 学习方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011169070.1/,转载请声明来源钻瓜专利网。