[发明专利]基于深度强化学习的认知无线电空频二维抗敌意干扰方法在审
申请号: | 201710181997.9 | 申请日: | 2017-03-24 |
公开(公告)号: | CN106961684A | 公开(公告)日: | 2017-07-18 |
发明(设计)人: | 肖亮;韩国安;李炎达 | 申请(专利权)人: | 厦门大学 |
主分类号: | H04W16/14 | 分类号: | H04W16/14;H04W24/02;G06N3/08;G06N99/00 |
代理公司: | 厦门南强之路专利事务所(普通合伙)35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于深度强化学习的认知无线电空频二维抗敌意干扰方法,认知无线电次用户在未知干扰机攻击模式和无线信道环境的状态下,观察认知无线电主用户的接入状态、无线信号的信干比,利用深度强化学习机制决定是否离开所在被干扰区域或者选择一个合适的频点发送信号。结合深度卷积神经网络和Q学习,利用Q学习在无线动态博弈中学习最优抗干扰策略,将观测状态和获取效益输入深度卷积神经网络作为训练集加快学习速度。利用深度强化学习的机制,提高认知无线电在动态变化的无线网络环境场景下对抗敌意干扰机的通信效率。可克服人工神经网络需要在训练过程中需要先对数据进行分类以及Q学习算法在状态集和动作集维度大的情况下学习速度会快速下降问题。 | ||
搜索关键词: | 基于 深度 强化 学习 认知 无线电 二维 抗敌 干扰 方法 | ||
【主权项】:
基于深度强化学习的认知无线电空频二维抗敌意干扰方法,其特征在于包括以下步骤:1)认知无线电次用户的动作记为x∈[0,N],其中,x=0表示次用户离开该区域,x∈[1,N]表示次用户选择信道编号为x的信道进行通信,N表示可用的信道数量;2)构造深度卷积神经网络;3)在k时刻,次用户记录上一个时刻认知无线电主用户的接入状态(λk‑1)和无线信号的信干比(SINRk‑1),并组成当前状态sk=[λk‑1,SINRk‑1];4)在k时刻,当k≤W时,次用户随机选取一个动作xk∈[0,N];当k>W时,构造深度卷积神经网络的输入序列将状态序列输入到深度卷积神经网络,计算每一个动作的Q值;次用户根据贪婪算法选取动作xk,以1‑ε的概率选取具有最大Q值的动作,以ε概率随机选取其他动作;5)当xk=0时,次用户离开该区域;当xk∈[1,N]时,次用户选择信道编号为xk的信道进行通信;6)次用户观测认知无线电主用户当前的接入状态(λk),当λk=1时,表示认知无线电主用户正在使用目标通信信道,反之,λk=0;同时观察无线信号的信干比(SINRk);7)根据公式(1)计算效益uk:uk=λkSINRk‑Cmf(xk=0) (1)其中,Cm为次用户离开目前区域的移动损耗;f(ξ)是一个指示函数,当ξ为真时其值为1,反之为0;8)次用户获取下一时刻状态sk+1=[λk,SINRk],下一时刻输入序列9)记录k时刻经验到经验池D中;10)对第k时刻网络的权重参数θk进行B次更新操作,在每一次更新过程中,随机从经验池D中选取一个经验根据公式(2)计算损失值L(θk):其中,x′为输入序列为下使Q值最大的动作,表示对xd,ud,随机变量做统计期望计算;根据公式(3)计算损失值的梯度值采用随机梯度下降法,利用神经网络反向反馈更新深度卷积神经网络的权重参数θk,使得梯度值最小化;11)根据环境变化,次用户重复步骤3)~10),直到次用户学习到稳定的动作选择策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710181997.9/,转载请声明来源钻瓜专利网。