[发明专利]基于元强化学习的非正交多址系统物理层安全通信方法在审
申请号: | 202310259528.X | 申请日: | 2023-03-16 |
公开(公告)号: | CN116405930A | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 万城瑞;周小林;王涵 | 申请(专利权)人: | 复旦大学 |
主分类号: | H04W12/033 | 分类号: | H04W12/033;H04W52/26 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 正交 系统 物理层 安全 通信 方法 | ||
1.一种基于元强化学习的非正交多址系统物理层安全通信方法,其特征在于,包括构建最大化系统物理层安全和传输速率为目标的功率分配优化目标函数;采用元强化学习网络,对系统物理层进行安全加密,实现非正交多址系统物理层安全通信;
(一)构建最大化系统物理层安全和传输速率为目标的功率分配优化目标函数
所述非正交多址系统,包含无线系统发送端用户、接收端基站,以及恶意窃听端;
设发送端第i个用户发送信号Si表示为:
其中,Ptotal为发送端的发射总功率,αi为第i个用户的功率分配因子,Xi为第i个用户的信息信号;i=1,2...n,n为用户数;用户-基站、用户-窃听端以及基站-窃听端的信道分别用信道系数表示:hsd,hse,hde,信道系数为服从瑞利分布的随机变量;
设接收端基站处的接收信号yl表示为:
其中,分别表示从无线信号源到接收端处的信道系数,nd为接收端加性高斯白噪声;
设非法窃听端处的接收信号ye表示为:
其中,分别表示从无线信号源到非法窃听端处的信道系数,nd为接受端加性高斯白噪声,na为基站处发送的干扰窃听者的人工噪声;
在接收端,采用连续干扰消除技术,按照信号功率大小区分解码顺序,第1个用户的信干噪比为:
第2个用户的信干噪比为:
依此类推,第n个用户的信干噪比为:
其中,为合法接受端的噪声功率;
假设窃听端的窃听能力强,能够分辨不同的用户并对各个用户信号单独解码;同时,模型系统存在多个窃听端,假设多个窃听端中存在一个窃听能力最强的窃听用户,若系统在考虑最强窃听端时保证信息传输的安全,则表示系统在多个窃听端下都可以进行安全的信息传输;以下考虑窃听能力最强的窃听端的情况;
窃听端第1个用户的信干噪比为:
窃听端第2个用户的信干噪比为:
窃听端第个n用户的信干噪比为:
其中,为窃听端的噪声功率;
为了使系统的物理层安全得到加强,以系统的安全和速率为优化目标,根据安全速率的定义,信号的安全速率等于合法端速率与非法窃听端速率之差:
其中,Rs为合法端用户速率,Re为非法窃听端速率,[x]+=max{0,x},当计算结果为负值时,安全速率为0,即无法进行安全可靠的通信;
安全和速率定义为系统中所有用户的安全速率之和:
于是,NOMA上行链路模型下的优化目标函数如下:
Pmin≤αi*Ptotal≤Pmax
其中,Pmin,Pmax为系统中用户的最小发射功率与最大发射功率;优化目标函数的解为使得系统安全和速率最大的一组功率分配因子;
(二)采用元强化学习网络,对系统物理层进行安全加密;
具体步骤为:
S1、元强化学习网络采用DQN和DQN_target双网络结构,两个网络结构相同,用全连接层网络实现动作-行为值函数Q;每次迭代DQN网络参数都进行更新,而DQN_target网络为目标网络,为最终训练完成进行应用的网络,其参数更新为每隔syn_num步克隆DQN网络的参数;随机初始化DQN网络、DQN_target网络的网络参数;设置初始化参数为θ,待更新参数为θ;
S2、为解(12)式所示优化问题,对连续动作离散化,具体使用编码离散动作至用户功率分配因子的增、减以及不变三种状态;
S3、元强化学习训练任务集合为预先设置的K组不同的信道分布参数,具体为服从不同标准差与期望的无线信道分布,从元强化学习网络训练任务集合中选择M组(MK)不同的信道环境作为元强化学习网络训练的任务,对于每个任务进行如下步骤:
S3.1、初始化采样到的任务环境,初始化经验回放缓存;相应的DQN以及DQN_target载入相同的参数temp_param;初始化优化器为Adam优化器,优化参数为DQN的参数;
S3.2、进行episode轮次的训练,每一轮训练重置环境得到初始状态state1,当训练没有结束时,根据随时间衰减的ε-greedy策略,决定当前动作是随机产生的动作还是依据DQN网络输出q值最大的动作,动作标记为a1;并将动作带入环境中进行状态更新得到state2;选择当前动作的回报r1,以及表示该回合是否中止的标记done,将得到的
(state1,a1,r1,state2,done)存入经验回放缓存中,依此类推,得到
(staten,an,rn,staten+1,done),直至达到最小缓存经验数量,即开始接下去的训练;
S3.3、根据batch_size从经验缓存中随机抽取批量经验元组,计算损失函数的值,并进行梯度反向传播;损失函数的公式如下:
其中,rn为当前经验的回报,γ为折扣因子,用于减少下一步对于整体学习方向的贡献度,Qtarget(Sn+1,an+1)为目标网络对下一状态输出的q值,Q(Sn,an)即为当前网络在当前状态下输出的q值;
S3.4、每间隔syn_num步将DQN的网络参数复制给DQN_target网络;
S3.5、每个回合进行K次梯度下降,最后所得任务i(i=1,2,3,...,M)的DQN_target参数为θ′;
S4、进行元强化学习网络学习梯度更新,按照下式:
其中,∈为学习更新步长,具体到每次任务的学习中,可写为待更新参数变量temp_param的更新,如下式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310259528.X/1.html,转载请声明来源钻瓜专利网。