首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于二阶反向传播优先级的游戏策略获得方法有效

申请号：	201911351336.1	申请日：	2019-12-24
公开（公告）号：	CN111001161B	公开（公告）日：	2023-04-07
发明（设计）人：	王红滨;原明旗;何鸣;张耘;王念滨;周连科;张毅	申请（专利权）人：	哈尔滨工程大学
主分类号：	A63F13/67	分类号：	A63F13/67;G06N3/084
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	时起磊
地址：	150001 黑龙江***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于反向传播优先级游戏策略获得方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于二阶反向传播优先级的游戏策略获得方法，其特征在于，该方法包括以下步骤：

步骤一、初始化：当前值网络Q与目标值网络Q′的权重分别为θ与θ′，经验回放池E通过智能体Agent与环境交互存储样本序列，二级优先级临时经验回放池为空；并构建用于存储单个样本序列的经验回放池h；

步骤二、将当前状态S_m输入当前值网络Q，m＝1,2,…,t；

利用探索利用策略选择Agent执行的动作A_m，根据当前状态S_m和动作A_m获得即时奖赏R_m和状态S_m+1；将样本数据＜S_m；A_m；S_m+1；R_m存储到经验回放池h中，并赋予当前经验回放池中最大的优先级为代表第m个样本数据的优先级；

步骤三、判断状态S_t是否达到中止状态，若状态S_t达到中止状态，将经验回放池h中样本数据组成的样本序列l₁＝{S₁；A₁；S₂；R₁,S₂；A₂；S₃；R₂,…,S_t；A_t；S_t+1；R_t}保存到经验回放池E中，并清空经验回放池h，执行步骤十二；

步骤四、若状态S_t未达到中止状态，则判断是否满足t％K＝0，其中：t％K＝0表示t对K取余等于0，K为训练频率；

若不满足t％K＝0，则执行步骤十和步骤十一；

若满足t％K＝0，则计算出经验回放池E中包含的样本序列的数量M，并执行步骤五至步骤十一；

步骤五、分别计算出经验回放池E中每个样本序列的累计奖赏值，根据每个样本序列的累计奖赏值计算出每个样本序列的优先级；

步骤六、分别根据步骤五计算出的每个样本序列的优先级来计算每个样本序列被采样的概率；

步骤七、根据步骤六计算出的每个样本序列被采样的概率，对经验回放池E中的样本序列进行采样，将采样出来的样本序列放入临时经验回放池中，得到临时经验回放池中含有的样本数据的个数

步骤八、计算步骤七临时经验回放池中每个样本数据的采样概率，根据每个样本数据的采样概率，从临时经验回放池的个样本数据中抽取出k个样本数据；

再计算每个抽取出的样本数据的采样重要性系数ω_e以及TD-errorδ_e，根据TD-errorδ_e计算出每个抽取出的样本数据的优先级；

根据每个抽取出的样本数据在经验回放池中的样本序列中的位置，进行反向更新优先级；

所述根据每个抽取出的样本数据在经验回放池中的样本序列中的位置，进行反向更新优先级；其具体过程为：

对于抽取出的k个样本数据中的任意一个样本数据，若该样本数据是所在样本序列中的第i个样本数据，则该样本数据的优先级会向前以衰减的形式传播；

该样本数据所在样本序列中的第i-1个样本数据的优先级p_i-1为：

p_i-1＝max{p_i·ρ¹,p_i-1}

其中：p_i为该样本数据的优先级，p_i-1为第i-1个样本数据的原优先级，ρ为衰减因子；

该样本数据所在样本序列中的第i-2个样本数据的优先级p_i-2为：

p_i-2＝max{p_i·ρ²,p_i-2}

其中：p_i-2为第i-2个样本数据的原优先级，ρ为衰减因子；

且定义该样本数据的优先级向前传播的窗口容量W为：

同理，计算出窗口容量W内，该样本数据前面的其他样本数据的优先级；

根据采样重要性系数ω_e和TD-errorδ_e计算每个抽取出的样本数据的累计梯度；

步骤九、根据步骤八计算出的累计梯度更新当前值网络Q的权重θ；

步骤十、当t％L＝0时，更新目标值网络Q′的权重为：当前值网络Q的当前权重；其中：L为目标值网络Q′的权重更新频率；

步骤十一、令S_m＝S_m+1，重复执行步骤二至步骤十一，如此循环，直至达到设置的最大迭代次数时停止执行，获得训练好的当前值网络Q与目标值网络Q′；

步骤十二、本次指挥决策过程结束，将S_m设置初始状态进行下一次指挥决策过程。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911351336.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于快速循环单元的水下目标探测方法
下一篇：一种电线自动收卷装置

同类专利

专利分类

A63 运动；游戏；娱乐活动
A63F 纸牌、棋盘或轮盘赌游戏；利用小型运动物体的室内游戏；其他类目不包含的游戏
A63F13-00 使用二维或多维电子显示器
A63F13-02 .附件
A63F13-08 .结构零件或布置，例如其他类目不包括的壳体、导线、连接件、操纵台
A63F13-10 .游戏过程的控制，例如开始、进行、结束
A63F13-12 .涉及若干游戏装置之间的相互作用，例如传送和分配系统
A63F13-04 ..用于命中显示器上的特殊区域，如具有光电探测装置的

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top