[发明专利]基于深度强化学习的作战体系设计方法及相关设备在审
申请号: | 202210535183.1 | 申请日: | 2022-05-17 |
公开(公告)号: | CN114970334A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 陈涛;林萌龙;张萌萌;陈洪辉;张晓雪;徐成涛;刘俊先;罗爱民;舒振 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 作战 体系 设计 方法 相关 设备 | ||
本申请提供一种基于深度强化学习的作战体系的设计方法及相关设备。该方法包括:利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列;将所述输入序列输入预构建的指针网络的编码器中,所述编码器将所述输入序列映射为特征向量;将所述特征向量输入到预构建的所述指针网络的解码器中,所述解码器采用注意力机制确定输出序列,所述输出序列中包括多个所述作战体系;根据所述组合优化模型计算选择各个所述作战体系的奖励回报,根据所述奖励回报,采用梯度下降的方式更新所述指针网络的参数,并利用更新的参数对指针网络进行训练,响应于达到预设的终止条件,完成训练并利用训练完的所述指针网络实施作战体系的设计。
技术领域
本申请的实施例涉及体系架构设计的技术领域,尤其涉及一种基于深度强化学习的作战体系设计方法及相关设备。
背景技术
在相关的解决系统构建的方式中,多使用遗传算法、差分算法等传统方式进行,但相关的方式往往需要进行多次迭代,在体系设计复杂的问题中,所需时间成本高,难以在大规模的问题中应用;并且传统方式不具备从问题中学习的能力,因此,对于现实中仅仅规模和初始化数据不同的同类型问题,又难以复制解决方案。
基于此,需要一种能够实现不需要迭代,缩小时间成本,快速构建体系的方案。
发明内容
有鉴于此,本申请的目的在于提出一种基于深度强化学习的作战体系设计方法及相关设备。
基于上述目的,本申请提供了一种基于深度强化学习的作战体系的设计方法,包括:
利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列;
将所述输入序列输入预构建的指针网络的编码器中,所述编码器将所述输入序列映射为特征向量;
将所述特征向量输入到预构建的所述指针网络的解码器中,所述解码器采用注意力机制确定输出序列,所述输出序列中包括多个所述作战体系;
根据所述组合优化模型计算选择各个所述作战体系的奖励回报,根据所述奖励回报,采用梯度下降的方式更新所述指针网络的参数,并利用更新的参数对指针网络进行训练,响应于达到预设的终止条件,完成训练并利用训练完的所述指针网络实施作战体系的设计。
进一步地,利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列,包括:
确定所述作战系统的个数、多个所述作战系统各自提供的能力、作战任务的个数、多个所述作战任务各自的能力需求、和多个所述作战系统各自的成本;
利用各个所述作战系统各自提供的能力和各个所述作战系统各自的成本构建组合优化模型;
利用各个所述作战任务的能力需求、各个所述作战系统提供的能力和各个所述作战系统的成本建立输入序列;
其中,所述输入序列的包括有多个节点,每个所述节点包括1个作战系统提供的能力、1个作战任务的能力需求和该作战系统的成本。
进一步地,利用各个所述作战系统各自提供的能力和各个所述作战系统各自的成本构建组合优化模型,包括:
利用各个所述作战系统各自提供的能力和各个所述作战系统各自的成本构建体系总成本最小化的目标;
将每个所述作战系统约束为最多只用于完成1个作战任务;
将完成1个作战任务的多个作战系统各自的能力之和约束为大于等于该作战任务的能力需求。
进一步地,编码器将所述输入序列映射为特征向量,包括:
将所述输入序列中的每个所述节点编码1个嵌入向量;
将全部所述嵌入向量组成为特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210535183.1/2.html,转载请声明来源钻瓜专利网。