[发明专利]基于深度强化学习的无人机智能反射面安全传输方法在审

申请号：	202210477440.0	申请日：	2022-05-04
公开（公告）号：	CN115052285A	公开（公告）日：	2022-09-13
发明（设计）人：	东润泽;王布宏;曹堃锐;程天昊;刁丹玉	申请（专利权）人：	中国人民解放军空军工程大学
主分类号：	H04W12/02	分类号：	H04W12/02;H04W24/02;H04W24/06;H04B7/06;G06N7/00
代理公司：	西安凯多思知识产权代理事务所(普通合伙) 61290	代理人：	刘新琼
地址：	710038 陕西***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习无人机智能反射安全传输方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的无人机智能反射面安全传输方法，其特征在于步骤如下：

步骤1：假设UAV作为空中基站向地面的合法通信节点传输毫米波，同时地面还存在一个恶意的窃听者对保密链路进行窃听；其中，UAV装备多天线，地面节点均装备单天线；为了加强通信网络的安全性能，进一步在网络中部署一个智能发射面，通过其相位的灵活调控最大化保密信道与窃听信道之间的性能差异；当无人机执行其任务即为地面合法接收者提供服务时，将在一定时间段T内于固定高度飞行，为了提高通信网络的安全性能，需要对UAV的波束形成向量和轨迹、IRS的相移矩阵进行联合优化；

步骤2：由于连续的时间将使得优化难以进行，首先将飞行时间T进行离散化即T＝NΔ_t，其中N为总时隙数，Δ_t为单个时隙的长度；这样，通信网络的安全性能增强问题就被归结为合法接收者的平均保密速率最大化问题，优化变量包括每个时隙n时的UAV的波束形成向量、位置以及IRS的相移矩阵；然而即使对时间进行了离散化，最优化问题仍然是非凸的而难以直接进行求解；

步骤3：最优化问题难以直接求解，因此提出一种基于DRL的算法对变量进行同时优化；DRL善于求解动态优化问题，能够获得在特定状态下采取某种动作的策略π_θ；首先将平均保密速率最大化问题归结为一个马尔可夫决策过程，其中时隙n时的状态s_n为合法用户及窃听者的CSI与UAV的位置，动作a_n为UAV的波束形成向量、位置以及IRS的相移矩阵，回报r_n为取得的保密速率R_s[n]；这种设置就能够使得代理的目标为最大化飞行时间内的平均保密速率；在此之后，利用DRL中的近端策略优化算法对其进行求解，其中的策略网络用于根据当前状态输出要执行的动作，更新梯度为：

其中用来衡量新旧策略之间的差异，为优势函数∈为裁剪参数；价值网络则用于评估采用动作的预测价值与实际价值之间的差异，其更新的目标函数为：

其中表示状态s_n的价值；通过不断试错并对策略网络和价值网络进行训练就能获得最优的策略，并相应给出无人机智能反射面通信网络的安全传输方法。

2.一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1所述的方法。

3.一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现权利要求1所述的方法。

4.一种计算机程序，其特征在于包括计算机可执行指令，所述指令在被执行时用于实现权利要求1所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军空军工程大学，未经中国人民解放军空军工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210477440.0/1.html，转载请声明来源钻瓜专利网。