[发明专利]基于近似动态规划算法的博弈决策方法及系统有效

申请号：	201911142525.8	申请日：	2019-11-20
公开（公告）号：	CN110917622B	公开（公告）日：	2021-11-30
发明（设计）人：	芦维宁;杨君;梁斌;赵千川;马骁腾	申请（专利权）人：	清华大学
主分类号：	A63F13/55	分类号：	A63F13/55;A63F13/56;A63F13/75
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	石茵汀
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于近似动态规划算法博弈决策方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于近似动态规划算法的博弈决策方法，其特征在于，包括以下步骤：

采集空中格斗游戏的游戏信息，并确定描述空中格斗过程的多维度特征向量，以作为近似动态规划算法的特征输入；

根据预设的基于空中格斗游戏经验规则的自适应奖励机制，分阶段从进攻能力以及防守和躲避能力调整博弈算法；以及

利用所述近似动态规划算法学习空中格斗游戏的价值函数，以在所述价值函数下指导格斗动作，输出博弈决策；

所述自适应奖励机制为在构建所述价值函数的过程中，当初期对战胜率满足第一预设条件时，对于正向反馈将给与预设奖励，当对战胜率满足第二预设条件时，以预设缩小策略缩小正向反馈所获得的奖励；

所述自适应奖励机制为：

其中，ω＝θ^1-2r，r为训练过程中的统计胜率，θ为超参数，用于控制对于不同情况下的奖励比例，g'(x)为奖励函数；

所述博弈决策为：

其中，u_p为我方策略，u_d为敌方策略，J_approx为初始化目标函数，g(x)为自适应奖励机制；

所述方法还包括，每架飞机正前方有一个扇形攻击区，其长度为r_atk，角度为θ_atk；所述每架飞机的正后方有一个易受攻击的扇形死角，长度为r_df，角度为θ_df；

其中，敌我双方质心距离r,方位AA,天线偏角ATA，相对位置(r,AA,ATA)由两架飞机的位置计算得出；

两架飞机一对一格斗的情况；在二维平面内，每架飞机行动的目标是：1)使敌机位于自身攻击区内；2)同时使自身位于敌机的死角内，同时满足上述两个条件，认为飞机已经进入了可以攻击敌方而难以受到反击的优势状态；

其中，定义奖励函数如下：

其中，x表示机器人的状态，二维数组，分别表示机器人位置的横纵坐标；

值函数J(x)用一张表格来表示，初始化J⁰(x)＝0，使用贝尔曼公式更新值函数直到收敛，所述贝尔曼公式如下：

J^k+1(x)＝max_u{γJ^k[f(x,u)]+g(x)}

其中，f为状态转移函数；u为采取的策略；γ为折扣因子，取0.9；

当值函数收敛时，得到最佳的策略：

π^*(x)＝argmax_u{γJ^*[f(x,u)]+g(x)}

引入近似值函数J_approx(x)＝φ(x)β，式中φ(x)是状态x的特征函数，β是其参数；

通过迭代求解最佳参数β^*的过程如下：随机采样一些状态记作X，初始化β⁰＝0，估计此时采样点的值函数其中X′表示采样点转移后的状态；由最小二乘方法修改此时的参数其中Φ＝φ(X)；重复过程直到β收敛。

2.根据权利要求1所述的基于近似动态规划算法的博弈决策方法，其特征在于，所述多维度特征向量包括：双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911142525.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载