[发明专利]一种基于二阶反向传播优先级的游戏策略获得方法有效
申请号: | 201911351336.1 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111001161B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王红滨;原明旗;何鸣;张耘;王念滨;周连科;张毅 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | A63F13/67 | 分类号: | A63F13/67;G06N3/084 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 反向 传播 优先级 游戏 策略 获得 方法 | ||
1.一种基于二阶反向传播优先级的游戏策略获得方法,其特征在于,该方法包括以下步骤:
步骤一、初始化:当前值网络Q与目标值网络Q′的权重分别为θ与θ′,经验回放池E通过智能体Agent与环境交互存储样本序列,二级优先级临时经验回放池为空;并构建用于存储单个样本序列的经验回放池h;
步骤二、将当前状态Sm输入当前值网络Q,m=1,2,…,t;
利用探索利用策略选择Agent执行的动作Am,根据当前状态Sm和动作Am获得即时奖赏Rm和状态Sm+1;将样本数据<Sm;Am;Sm+1;Rm存储到经验回放池h中,并赋予当前经验回放池中最大的优先级为代表第m个样本数据的优先级;
步骤三、判断状态St是否达到中止状态,若状态St达到中止状态,将经验回放池h中样本数据组成的样本序列l1={S1;A1;S2;R1,S2;A2;S3;R2,…,St;At;St+1;Rt}保存到经验回放池E中,并清空经验回放池h,执行步骤十二;
步骤四、若状态St未达到中止状态,则判断是否满足t%K=0,其中:t%K=0表示t对K取余等于0,K为训练频率;
若不满足t%K=0,则执行步骤十和步骤十一;
若满足t%K=0,则计算出经验回放池E中包含的样本序列的数量M,并执行步骤五至步骤十一;
步骤五、分别计算出经验回放池E中每个样本序列的累计奖赏值,根据每个样本序列的累计奖赏值计算出每个样本序列的优先级;
步骤六、分别根据步骤五计算出的每个样本序列的优先级来计算每个样本序列被采样的概率;
步骤七、根据步骤六计算出的每个样本序列被采样的概率,对经验回放池E中的样本序列进行采样,将采样出来的样本序列放入临时经验回放池中,得到临时经验回放池中含有的样本数据的个数
步骤八、计算步骤七临时经验回放池中每个样本数据的采样概率,根据每个样本数据的采样概率,从临时经验回放池的个样本数据中抽取出k个样本数据;
再计算每个抽取出的样本数据的采样重要性系数ωe以及TD-errorδe,根据TD-errorδe计算出每个抽取出的样本数据的优先级;
根据每个抽取出的样本数据在经验回放池中的样本序列中的位置,进行反向更新优先级;
所述根据每个抽取出的样本数据在经验回放池中的样本序列中的位置,进行反向更新优先级;其具体过程为:
对于抽取出的k个样本数据中的任意一个样本数据,若该样本数据是所在样本序列中的第i个样本数据,则该样本数据的优先级会向前以衰减的形式传播;
该样本数据所在样本序列中的第i-1个样本数据的优先级pi-1为:
pi-1=max{pi·ρ1,pi-1}
其中:pi为该样本数据的优先级,pi-1为第i-1个样本数据的原优先级,ρ为衰减因子;
该样本数据所在样本序列中的第i-2个样本数据的优先级pi-2为:
pi-2=max{pi·ρ2,pi-2}
其中:pi-2为第i-2个样本数据的原优先级,ρ为衰减因子;
且定义该样本数据的优先级向前传播的窗口容量W为:
同理,计算出窗口容量W内,该样本数据前面的其他样本数据的优先级;
根据采样重要性系数ωe和TD-errorδe计算每个抽取出的样本数据的累计梯度;
步骤九、根据步骤八计算出的累计梯度更新当前值网络Q的权重θ;
步骤十、当t%L=0时,更新目标值网络Q′的权重为:当前值网络Q的当前权重;其中:L为目标值网络Q′的权重更新频率;
步骤十一、令Sm=Sm+1,重复执行步骤二至步骤十一,如此循环,直至达到设置的最大迭代次数时停止执行,获得训练好的当前值网络Q与目标值网络Q′;
步骤十二、本次指挥决策过程结束,将Sm设置初始状态进行下一次指挥决策过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911351336.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于快速循环单元的水下目标探测方法
- 下一篇:一种电线自动收卷装置