[发明专利]基于近似动态规划算法的博弈决策方法及系统有效
申请号: | 201911142525.8 | 申请日: | 2019-11-20 |
公开(公告)号: | CN110917622B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 芦维宁;杨君;梁斌;赵千川;马骁腾 | 申请(专利权)人: | 清华大学 |
主分类号: | A63F13/55 | 分类号: | A63F13/55;A63F13/56;A63F13/75 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 近似 动态 规划 算法 博弈 决策 方法 系统 | ||
1.一种基于近似动态规划算法的博弈决策方法,其特征在于,包括以下步骤:
采集空中格斗游戏的游戏信息,并确定描述空中格斗过程的多维度特征向量,以作为近似动态规划算法的特征输入;
根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力调整博弈算法;以及
利用所述近似动态规划算法学习空中格斗游戏的价值函数,以在所述价值函数下指导格斗动作,输出博弈决策;
所述自适应奖励机制为在构建所述价值函数的过程中,当初期对战胜率满足第一预设条件时,对于正向反馈将给与预设奖励,当对战胜率满足第二预设条件时,以预设缩小策略缩小正向反馈所获得的奖励;
所述自适应奖励机制为:
其中,ω=θ1-2r,r为训练过程中的统计胜率,θ为超参数,用于控制对于不同情况下的奖励比例,g'(x)为奖励函数;
所述博弈决策为:
其中,up为我方策略,ud为敌方策略,Japprox为初始化目标函数,g(x)为自适应奖励机制;
所述方法还包括,每架飞机正前方有一个扇形攻击区,其长度为ratk,角度为θatk;所述每架飞机的正后方有一个易受攻击的扇形死角,长度为rdf,角度为θdf;
其中,敌我双方质心距离r,方位AA,天线偏角ATA,相对位置(r,AA,ATA)由两架飞机的位置计算得出;
两架飞机一对一格斗的情况;在二维平面内,每架飞机行动的目标是:1)使敌机位于自身攻击区内;2)同时使自身位于敌机的死角内,同时满足上述两个条件,认为飞机已经进入了可以攻击敌方而难以受到反击的优势状态;
其中,定义奖励函数如下:
其中,x表示机器人的状态,二维数组,分别表示机器人位置的横纵坐标;
值函数J(x)用一张表格来表示,初始化J0(x)=0,使用贝尔曼公式更新值函数直到收敛,所述贝尔曼公式如下:
Jk+1(x)=maxu{γJk[f(x,u)]+g(x)}
其中,f为状态转移函数;u为采取的策略;γ为折扣因子,取0.9;
当值函数收敛时,得到最佳的策略:
π*(x)=argmaxu{γJ*[f(x,u)]+g(x)}
引入近似值函数Japprox(x)=φ(x)β,式中φ(x)是状态x的特征函数,β是其参数;
通过迭代求解最佳参数β*的过程如下:随机采样一些状态记作X,初始化β0=0,估计此时采样点的值函数其中X′表示采样点转移后的状态;由最小二乘方法修改此时的参数其中Φ=φ(X);重复过程直到β收敛。
2.根据权利要求1所述的基于近似动态规划算法的博弈决策方法,其特征在于,所述多维度特征向量包括:双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911142525.8/1.html,转载请声明来源钻瓜专利网。