[发明专利]一种无人机自主空战决策框架及方法在审

专利信息
申请号: 201711275066.1 申请日: 2017-12-06
公开(公告)号: CN108021754A 公开(公告)日: 2018-05-11
发明(设计)人: 马耀飞;刘品;陈静心;李妮;龚光红 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/50 分类号: G06F17/50;G06N3/08;G06N5/02
代理公司: 北京永创新实专利事务所 11121 代理人: 祗志洁
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种无人机自主空战决策框架及方法,属于计算机仿真领域。所述框架包括基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境。空战决策模块生成空战训练数据集输出给深度网络学习模块,学习获得深度网络和Q值拟合函数、动作选择函数,并输出给强化学习模块;空战仿真环境使用学习好的空战决策函数进行自我空战过程,并记录空战过程数据形成强化学习训练集;强化学习模块利用强化学习训练集对Q值拟合函数优化改进,获得性能更好的空战策略。本发明能对本质上复杂的Q函数进行更精确、更快速地拟合,提高了学习效果,最大程度避免了收敛到局部最优值,并且构造了一个空战决策优化的闭环过程,不需外部干预。
搜索关键词: 一种 无人机 自主 空战 决策 框架 方法
【主权项】:
1.一种无人机自主空战决策框架,其特征在于,包括:基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境;所述的空战决策模块用于生成空战训练数据集S输出给深度网络学习模块;所述的空战决策模块包含的子模块有空战态势输入模块、空战决策规则库和决策输出模块;空战态势输入模块从空战仿真环境中获取当前作战情况数据,将所获取的数据进行设定的归一化处理,得到当前作战态势s,并输出到空战决策规则库;空战决策规则库中针对作战飞机事先建立一组机动动作,每个动作由唯一的序号进行索引;当空战决策规则库接收到当前作战态势s时,进行规则匹配,选择相匹配的机动动作,并将对应的索引序号输出给决策输出模块;决策输出模块将对应的索引序号a输出给空战仿真环境,在空战仿真环境根据a执行对应的机动动作,将所执行a后新的作战态势s′返回给空战决策模块;深度网络学习模块包括深度网络输入层、深度网络隐藏层、深度网络输出层和动作选择函数;深度网络输入层将输入的空战训练数据集S进行归一化处理输出到深度网络隐藏层,深度网络输出层输出数据给动作选择函数;深度网络输入层的维度与当前作战态势的维度相同,深度网络输出层的维度与机动动作的个数相同;所述的深度网络学习模块基于空战训练数据集对深度网络进行训练,逐渐学习得到空战决策模块的决策策略,得到Q值拟合函数和动作选择函数π(s);深度网络学习模块将学习好的深度网络和Q值拟合函数动作选择函数π(s)输出给强化学习模块;空战仿真环境使用深度网络学习模块完成学习的空战决策函数π(s)连续进行自我空战过程,并将空战过程数据记录,形成强化学习训练集X={<s,a,s′,r(s,a),Q(s,a)>},其中,r(s,a)是对s下选择动作a的即时回报,Q(s,a)是(s,a)组合的Q值;强化学习模块利用空战仿真环境输出的强化学习训练集对Q值拟合函数进行优化改进;强化学习模块利用训练集中每条记录的r(s,a)更新Q值,将其与当前拟合函数的计算结果之差作为反馈,优化深度网络中的网络参数,获得性能更好的空战策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711275066.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top