[发明专利]基于深度强化学习的作战体系设计方法及相关设备在审

申请号：	202210535183.1	申请日：	2022-05-17
公开（公告）号：	CN114970334A	公开（公告）日：	2022-08-30
发明（设计）人：	陈涛;林萌龙;张萌萌;陈洪辉;张晓雪;徐成涛;刘俊先;罗爱民;舒振	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06N3/04;G06N3/08
代理公司：	北京风雅颂专利代理有限公司 11403	代理人：	曾志鹏
地址：	410003 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习作战体系设计方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种基于深度强化学习的作战体系的设计方法及相关设备。该方法包括：利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列；将所述输入序列输入预构建的指针网络的编码器中，所述编码器将所述输入序列映射为特征向量；将所述特征向量输入到预构建的所述指针网络的解码器中，所述解码器采用注意力机制确定输出序列，所述输出序列中包括多个所述作战体系；根据所述组合优化模型计算选择各个所述作战体系的奖励回报，根据所述奖励回报，采用梯度下降的方式更新所述指针网络的参数，并利用更新的参数对指针网络进行训练，响应于达到预设的终止条件，完成训练并利用训练完的所述指针网络实施作战体系的设计。

技术领域

本申请的实施例涉及体系架构设计的技术领域，尤其涉及一种基于深度强化学习的作战体系设计方法及相关设备。

背景技术

在相关的解决系统构建的方式中，多使用遗传算法、差分算法等传统方式进行，但相关的方式往往需要进行多次迭代，在体系设计复杂的问题中，所需时间成本高，难以在大规模的问题中应用；并且传统方式不具备从问题中学习的能力，因此，对于现实中仅仅规模和初始化数据不同的同类型问题，又难以复制解决方案。

基于此，需要一种能够实现不需要迭代，缩小时间成本，快速构建体系的方案。

发明内容

有鉴于此，本申请的目的在于提出一种基于深度强化学习的作战体系设计方法及相关设备。

基于上述目的，本申请提供了一种基于深度强化学习的作战体系的设计方法，包括：

利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列；

将所述输入序列输入预构建的指针网络的编码器中，所述编码器将所述输入序列映射为特征向量；

将所述特征向量输入到预构建的所述指针网络的解码器中，所述解码器采用注意力机制确定输出序列，所述输出序列中包括多个所述作战体系；

根据所述组合优化模型计算选择各个所述作战体系的奖励回报，根据所述奖励回报，采用梯度下降的方式更新所述指针网络的参数，并利用更新的参数对指针网络进行训练，响应于达到预设的终止条件，完成训练并利用训练完的所述指针网络实施作战体系的设计。