[发明专利]一种基于Q-学习的雷达抗干扰方法及系统有效
申请号: | 201910811779.8 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110515045B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 王峰;汪浩 | 申请(专利权)人: | 河海大学 |
主分类号: | G01S7/36 | 分类号: | G01S7/36 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 张欢欢 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 雷达 抗干扰 方法 系统 | ||
本发明公开了一种基于Q‑学习的雷达抗干扰方法及系统,方法包括:将雷达接收到的干扰信号作为场景状态集合;将不同自适应干扰抑制处理算法作为动作集合;将状态动作价值函数作为评价函数,建立强化学习模型,采用Q‑学习算法进行模型训练为场景状态集合中各干扰场景从动作集合中选择最优的干扰抑制处理算法。本发明使得雷达能够自主学习并选择最优的抗干扰策略,克服了现有技术中人工干预挑选干扰抑制处理算法的不足。
技术领域
本发明属于雷达与电子战技术领域,具体涉及一种基于Q-学习的雷达抗干扰方法及系统。
背景技术
机载相控阵雷达在下视工作状态下不仅受到强杂波的影响,还将面临着空间中多种有源压制式干扰或欺骗式干扰所带来的挑战。有源压制式干扰能够在功率上对目标回波达到完全遮盖的效果,从而降低目标检测概率。而有源欺骗式干扰则利用了雷达发射多脉冲信号间的相参性,可在雷达检测距离多普勒平面上形成较高功率的假目标,造成雷达虚警概率提高。可见,这些复杂的电磁干扰场景将严重降低雷达的动目标检测性能。因此,复杂电磁环境下的雷达抗有源干扰技术是电子战系统的重要研究方向。
传统的干扰抑制方法较多,较为典型的有:利用空域与时域联合自适应处理的空时STAP算法(包括mDT-STAP算法以及子阵级STAP算法等),由于空时自适应处理具有空域维的自由度,因此STAP算法具备一定的干扰抑制能力;自适应副瓣对消算法(SLC算法)可用作有效抑制有源压制式干扰的技术手段;副瓣匿影技术(SLB)主要利用了主通道与匿影通道增益的差异,通过匿影门限的判决,从而可完成副瓣脉冲干扰的抑制处理。这些干扰抑制算法与脉冲压缩处理、动目标检测(MTD)、恒虚警处理(CFAR)、点迹凝聚处理以及反异步等处理模块共同构成了雷达信号处理的基本流程。
然而实际的干扰场景具有复杂多变的特性,并且各干扰抑制算法以及目标检测等处理过程中受到的影响参数较多,如何快速有效并准确的确定出不同干扰场景下最优的干扰抑制算法以及后续的处理算法成为了目前重要的问题。
发明内容
本发明的目的在于克服现有技术中的不足,提出了一种基于Q-学习的雷达抗干扰方法及系统,使得雷达能够自主学习并选择最优的抗干扰策略,克服了现有技术中人工干预挑选干扰抑制处理算法的不足。
为解决上述技术问题,本发明提供了一种基于Q-学习的雷达抗干扰方法,其特征是,结合了强化学习算法,雷达智能体能够与干扰环境进行不断交互并优化抑制策略,包括以下过程:
将雷达接收到的干扰信号作为场景状态集合;将不同自适应干扰抑制处理算法作为动作集合;将状态动作价值函数作为评价函数,建立强化学习模型,
采用Q-学习算法进行模型训练为场景状态集合中各干扰场景从动作集合中选择最优的干扰抑制处理算法。
进一步的,动作集合中包括自适应副瓣对消算法、1DT-STAP算法和SLB算法。
进一步的,状态动作价值函数包括:
状态动作价值函数用当前干扰状态下的干扰抑制比与下一状态动作价值的折扣期望值之和来表示,即:
式中π是策略,Jt是当前干扰状态,Jt+1表示采用动作at得到的下一干扰状态,at+1表示在下一状态采取的动作,rt表示当前干扰状态下采用at后获得的奖惩信号。
相应的,本发明还提供了一种基于Q-学习的雷达抗干扰系统,包括模型建立模块和最有策略计算模块;
模型建立模块,将雷达接收到的干扰信号作为场景状态集合;将不同自适应干扰抑制处理算法作为动作集合;将干扰抑制比作为奖赏函数的输出结果,建立强化学习模型,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910811779.8/2.html,转载请声明来源钻瓜专利网。