[发明专利]一种无人机自主空战决策框架及方法在审
申请号: | 201711275066.1 | 申请日: | 2017-12-06 |
公开(公告)号: | CN108021754A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | 马耀飞;刘品;陈静心;李妮;龚光红 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50;G06N3/08;G06N5/02 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种无人机自主空战决策框架及方法,属于计算机仿真领域。所述框架包括基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境。空战决策模块生成空战训练数据集输出给深度网络学习模块,学习获得深度网络和Q值拟合函数、动作选择函数,并输出给强化学习模块;空战仿真环境使用学习好的空战决策函数进行自我空战过程,并记录空战过程数据形成强化学习训练集;强化学习模块利用强化学习训练集对Q值拟合函数优化改进,获得性能更好的空战策略。本发明能对本质上复杂的Q函数进行更精确、更快速地拟合,提高了学习效果,最大程度避免了收敛到局部最优值,并且构造了一个空战决策优化的闭环过程,不需外部干预。 | ||
搜索关键词: | 一种 无人机 自主 空战 决策 框架 方法 | ||
【主权项】:
1.一种无人机自主空战决策框架,其特征在于,包括:基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境;所述的空战决策模块用于生成空战训练数据集S输出给深度网络学习模块;所述的空战决策模块包含的子模块有空战态势输入模块、空战决策规则库和决策输出模块;空战态势输入模块从空战仿真环境中获取当前作战情况数据,将所获取的数据进行设定的归一化处理,得到当前作战态势s,并输出到空战决策规则库;空战决策规则库中针对作战飞机事先建立一组机动动作,每个动作由唯一的序号进行索引;当空战决策规则库接收到当前作战态势s时,进行规则匹配,选择相匹配的机动动作,并将对应的索引序号输出给决策输出模块;决策输出模块将对应的索引序号a输出给空战仿真环境,在空战仿真环境根据a执行对应的机动动作,将所执行a后新的作战态势s′返回给空战决策模块;深度网络学习模块包括深度网络输入层、深度网络隐藏层、深度网络输出层和动作选择函数;深度网络输入层将输入的空战训练数据集S进行归一化处理输出到深度网络隐藏层,深度网络输出层输出数据给动作选择函数;深度网络输入层的维度与当前作战态势的维度相同,深度网络输出层的维度与机动动作的个数相同;所述的深度网络学习模块基于空战训练数据集对深度网络进行训练,逐渐学习得到空战决策模块的决策策略,得到Q值拟合函数 和动作选择函数π(s);深度网络学习模块将学习好的深度网络和Q值拟合函数 动作选择函数π(s)输出给强化学习模块;空战仿真环境使用深度网络学习模块完成学习的空战决策函数π(s)连续进行自我空战过程,并将空战过程数据记录,形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>},其中,r(s,a)是对s下选择动作a的即时回报,Q(s,a)是(s,a)组合的Q值;强化学习模块利用空战仿真环境输出的强化学习训练集对Q值拟合函数 进行优化改进;强化学习模块利用训练集中每条记录的r(s,a)更新Q值,将其与当前拟合函数 的计算结果之差作为反馈,优化深度网络中的网络参数,获得性能更好的空战策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711275066.1/,转载请声明来源钻瓜专利网。