[发明专利]基于近似动态规划算法的博弈决策方法及系统有效
申请号: | 201911142525.8 | 申请日: | 2019-11-20 |
公开(公告)号: | CN110917622B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 芦维宁;杨君;梁斌;赵千川;马骁腾 | 申请(专利权)人: | 清华大学 |
主分类号: | A63F13/55 | 分类号: | A63F13/55;A63F13/56;A63F13/75 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 近似 动态 规划 算法 博弈 决策 方法 系统 | ||
本发明公开了一种基于近似动态规划算法的博弈决策方法及系统,其中,该方法包括以下步骤:根据空中格斗游戏的特点,确定多维度特征向量来描述空中格斗过程,并作为近似动态规划算法的特征输入;根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力两个方面提升博弈算法的性能;利用近似动态规划算法学习出空中格斗游戏的价值函数,在此价值函数下指导我方做出格斗动作。该博弈决策方法将传统的表格形式使用函数来近似,增强了增强学习中的泛化和推广能力,从而在决策策略接近最优的前提下,保证决策的快速性。
技术领域
本发明涉及博弈决策技术领域,特别涉及一对一空战游戏环境下基于近似动态规划算法的博弈决策方法及系统。
背景技术
对抗性博弈决策问题目前是一类广泛受到关注的研究问题,其相关应用已经深入到诸如政治、军事、经济等社会各个领域。而随着人工智能技术的不断发展,机器博弈也在该领域的研究中发挥越来重要的作用,例如由DeepMind在2016年以及2017年推出的AlphaGo和AlphaGo Zero系统,在围棋类博弈游戏中成功战胜人类顶级高手玩家,其预示着机器博弈算法是解决该类问题的重要途径之一。
一对一空战游戏是一类典型的对抗性博弈决策类游戏,由于其游戏环境具有相对性和动态性,因此设计自主的空战决策方法需要同时兼顾准确性和快速性。从原理上来说,动态规划算法很适合解决该类问题,但实际问题中往往面临着具有大规模或是连续空间的状态和策略空间,使用传统的动态规划方法会导致“维数灾难”。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于近似动态规划算法的博弈决策方法,该方法在决策策略接近最优的前提下,保证决策的快速性。
本发明的另一个目的在于提出一种基于近似动态规划算法的博弈决策系统。
为达到上述目的,本发明一方面实施例提出了基于近似动态规划算法的博弈决策方法,包括以下步骤:采集空中格斗游戏的游戏信息,并确定描述空中格斗过程的多维度特征向量,以作为近似动态规划算法的特征输入;根据预设的基于空中格斗游戏经验规则的自适应奖励机制,分阶段从进攻能力以及防守和躲避能力调整博弈算法;以及利用所述近似动态规划算法学习空中格斗游戏的价值函数,以在所述价值函数下指导格斗动作,输出博弈决策。
本发明实施例的基于近似动态规划算法的博弈决策方法,为解决传统的动态规划方法会导致“维数灾难”的问题,提出近似动态规划方法,将传统的表格形式使用函数来近似,增强学习中的泛化和推广能力,从而在决策策略接近最优的前提下,保证决策的快速性。
另外,根据本发明上述实施例的基于近似动态规划算法的博弈决策方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述多维度特征向量包括:双方的速度、双方的朝向角、双方的翻滚角、双方的相对位姿关系中的一项或多项。
进一步地,在本发明的一个实施例中,所述自适应奖励机制为在构建所述价值函数的过程中,当初期对战胜率满足第一预设条件时,对于正向反馈将给与预设奖励,当对战胜率满足第二预设条件时,以预设缩小策略缩小正向反馈所获得的奖励。
进一步地,在本发明的一个实施例中,所述自适应奖励机制为:
其中,ω=θ1-2r,r为训练过程中的统计胜率,θ为超参数,用于控制对于不同情况下的奖励比例,g'(x)为奖励函数。
进一步地,在本发明的一个实施例中,所述博弈决策为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911142525.8/2.html,转载请声明来源钻瓜专利网。