[发明专利]基于近似动态规划算法的博弈决策方法及系统有效

专利信息
申请号: 201911142525.8 申请日: 2019-11-20
公开(公告)号: CN110917622B 公开(公告)日: 2021-11-30
发明(设计)人: 芦维宁;杨君;梁斌;赵千川;马骁腾 申请(专利权)人: 清华大学
主分类号: A63F13/55 分类号: A63F13/55;A63F13/56;A63F13/75
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 石茵汀
地址: 10008*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 近似 动态 规划 算法 博弈 决策 方法 系统
【权利要求书】:

1.一种基于近似动态规划算法的博弈决策方法,其特征在于,包括以下步骤:

采集空中格斗游戏的游戏信息,并确定描述空中格斗过程的多维度特征向量,以作为近似动态规划算法的特征输入;

根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力调整博弈算法;以及

利用所述近似动态规划算法学习空中格斗游戏的价值函数,以在所述价值函数下指导格斗动作,输出博弈决策;

所述自适应奖励机制为在构建所述价值函数的过程中,当初期对战胜率满足第一预设条件时,对于正向反馈将给与预设奖励,当对战胜率满足第二预设条件时,以预设缩小策略缩小正向反馈所获得的奖励;

所述自适应奖励机制为:

其中,ω=θ1-2r,r为训练过程中的统计胜率,θ为超参数,用于控制对于不同情况下的奖励比例,g'(x)为奖励函数;

所述博弈决策为:

其中,up为我方策略,ud为敌方策略,Japprox为初始化目标函数,g(x)为自适应奖励机制;

所述方法还包括,每架飞机正前方有一个扇形攻击区,其长度为ratk,角度为θatk;所述每架飞机的正后方有一个易受攻击的扇形死角,长度为rdf,角度为θdf

其中,敌我双方质心距离r,方位AA,天线偏角ATA,相对位置(r,AA,ATA)由两架飞机的位置计算得出;

两架飞机一对一格斗的情况;在二维平面内,每架飞机行动的目标是:1)使敌机位于自身攻击区内;2)同时使自身位于敌机的死角内,同时满足上述两个条件,认为飞机已经进入了可以攻击敌方而难以受到反击的优势状态;

其中,定义奖励函数如下:

其中,x表示机器人的状态,二维数组,分别表示机器人位置的横纵坐标;

值函数J(x)用一张表格来表示,初始化J0(x)=0,使用贝尔曼公式更新值函数直到收敛,所述贝尔曼公式如下:

Jk+1(x)=maxu{γJk[f(x,u)]+g(x)}

其中,f为状态转移函数;u为采取的策略;γ为折扣因子,取0.9;

当值函数收敛时,得到最佳的策略:

π*(x)=argmaxu{γJ*[f(x,u)]+g(x)}

引入近似值函数Japprox(x)=φ(x)β,式中φ(x)是状态x的特征函数,β是其参数;

通过迭代求解最佳参数β*的过程如下:随机采样一些状态记作X,初始化β0=0,估计此时采样点的值函数其中X′表示采样点转移后的状态;由最小二乘方法修改此时的参数其中Φ=φ(X);重复过程直到β收敛。

2.根据权利要求1所述的基于近似动态规划算法的博弈决策方法,其特征在于,所述多维度特征向量包括:双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911142525.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top