[发明专利]一种基于模糊决策树的深度强化学习空战博弈方法和系统有效
申请号: | 202010132561.2 | 申请日: | 2020-02-29 |
公开(公告)号: | CN111353606B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 朱燎原;刘长卫;瞿崇晓;张瑞峰;夏少杰;包骐豪 | 申请(专利权)人: | 中国电子科技集团公司第五十二研究所 |
主分类号: | G06N7/02 | 分类号: | G06N7/02;G06N20/10;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 310012*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 决策树 深度 强化 学习 空战 博弈 方法 系统 | ||
1.一种基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述基于模糊决策树的深度强化学习空战博弈解释方法,包括:
步骤S1、采用已训练的深度强化学习模型进行空战博弈,成对保存输入的特征向量和深度强化学习模型的输出作为样本数据,得到训练集和特征集;
步骤S2、构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集;
步骤S3、根据所述训练集和模糊特征集建立模糊决策树;
步骤S4、通过极小化决策树的损失函数对模糊决策树进行剪枝;
步骤S5、遍历剪枝后的模糊决策树的所有路径,得到模糊决策树训练的规则集合,其中每一路径表示一个空战博弈规则;
步骤S6、将空战博弈时深度强化学习模型的输入和输出成对保存为待处理数据,将待处理数据输入至剪枝后的模糊决策树中得到对应的空战博弈规则,从而完成空战博弈解释。
2.如权利要求1所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述成对保存输入的特征向量以及深度强化学习模型的输出作为样本数据,得到训练集,包括:
若保存的样本数据的长度为N,并且采用x表示特征向量,采用y表示深度强化学习模型的输出,则得到的训练集为:
D={(x1,y1),(x2,y2),…(xN,yN)}
其中,D表示训练集,xN表示第N个输入的特征向量,yN表示深度强化学习模型的第N个输出;
根据特征向量得到对应的特征集如下:
ψ={ψ1,ψ2,…ψi,…ψn}
其中,ψ为特征集,n为特征集中特征的总个数,ψi为第i个特征;
并且特征ψi的可选特征值空间为:
其中,l为特征ψi的可选特征值空间的总数,为特征ψi的第j个可选特征值空间。
3.如权利要求2所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集,包括:
步骤S2.1、构建各特征的隶属度函数的分割点;
步骤S2.2、采用梯形函数作为隶属度函数,单个梯形函数由四个参数{Aq,Bq,Cq,Dq}表征,则隶属度函数的表达式如下:
步骤S2.3、采用最大隶属度原则进行隶属度选择:
μ=max(μ1,μ2,…μl)
步骤S2.4、利用隶属度函数逐一将特征模糊化,将原始的特征集进行模糊化转换,得到模糊特征集如下:
A={A1,A2,A3,…Ai,…An}
其中,A为模糊特征集,n为模糊特征集中模糊特征的总个数,Ai为第i个模糊特征;
并且模糊特征Ai的可选向量空间为:
其中,l为模糊特征Ai的可选特征值空间的总数,为模糊特征Ai的第j个可选特征值空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十二研究所,未经中国电子科技集团公司第五十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010132561.2/1.html,转载请声明来源钻瓜专利网。