[发明专利]一种基于深度确定性策略梯度的无人机辅助计算迁移方法在审
申请号: | 202211341446.1 | 申请日: | 2022-10-28 |
公开(公告)号: | CN115640131A | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 陈志江;雷磊;宋晓勤;蒋泽星;唐胜;王执屹 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210016*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 确定性 策略 梯度 无人机 辅助 计算 迁移 方法 | ||
1.一种基于多智能体深度确定策略梯度的无人机辅助计算迁移方法,其特征在于,包括步骤如下:
(1)传统MEC服务器都是部署在基站或其他固定设施中,本次采用可移动式MEC服务器,将无人机技术与边缘计算相结合,用户设备通过无线通信将计算任务卸载到无人机端从而降低计算延时;
(2)构建无人机辅助用户卸载系统模型、移动模型、通信模型与计算模型,给出优化目标函数;
(3)采用部分可观测马尔可夫决策过程(Partially Observable Markov DecisionProcess,POMDP)建模,在考虑无人机飞行范围和安全距离的情况下,基于用户的位置和任务信息,联合优化多无人机的飞行轨迹和计算卸载策略,以最小化系统时延和无人机能耗同时保证用户的服务公平为目标,构建深度强化学习模型,包括如下具体步骤:
(3a),将多无人机辅助计算卸载问题看作是一个部分观测马尔可夫决策过程,由元组{S,A,O,Pr,R}构成;通常有多个智能体与环境交互,每个智能体基于当前状态sτ得到自身观察oτ∈O并做出动作aτ∈A,环境对动作产生即时奖励rτ∈R以评估当前动作的好坏,并以概率Pr(Sτ+1|Sτ,Aτ)进入下一状态,新状态只取决于当前的状态和各个智能体的动作;智能体的动作基于策略π(aτ|oτ)执行,其目标为学习到最优策略以最大化长期累积奖励,可表示为:
其中γ为奖励折扣;
(3b),具体定义观测空间,每架无人机都只有有限的观测范围,观测范围的半径设为robs,因此只能观测到部分状态信息,而全局的状态信息和其他无人机的动作都是未知的;单架无人机UAVu在时隙τ能观测到的信息有自身的位置信息cu(τ)和观测范围内K个移动用户当前的位置信息、任务信息以及服务次数动作空间A为发射功率和选择的信道,表示为:
ou(τ)={cu(τ),ku(τ)}
(3c),具体定义动作空间,基于观测到的信息,无人机需要确定在当前时隙τ服务哪位用户以及卸载比例Δm,u(τ),再决定自身的飞行角度βu(τ)和飞行速度vu(τ),可记为:
au(τ)={m(τ),Δm,u(τ),βu(τ),vu(τ)}
(3d),定义状态空间,系统的状态可看作所有无人机观测结果的集合:
s(τ)={ou(τ)|u∈U}
(3e),具体定义奖励,智能体执行动作后得到的反馈称之为奖励,用于判定动作的好坏,指导智能体更新其策略;一般来说,奖励函数都与优化目标相对应,本次优化的目标是最小化无人机的能耗和系统平均计算延时,与最大奖励回报正好呈负相关,因此将无人机执行动作后的奖励定义为:
ru(τ)=Dm(τ)·(-Tmean(τ)-ψEu(τ)-Pu(τ))
其中Dm(τ)∈[0,1]为衰减系数,定义为无人机处理移动终端卸载任务后得到的效益,具体计算如下:
其中η和β为相关常数,其函数图像为类sigmoid型,输入为当前用户的累积服务次数,次数越多,其值越大,奖励越小,效益越低;ψ用来对无人机能耗和用户平均时延进行数值对齐;Pu(τ)为额外的惩罚项,如果无人机执行动作后飞出场地或和其余无人机的距离小于安全距离,就需要增加惩罚;
(3f),依据建立好的S,A,O和R,在MADDPG的基础上建立深度强化学习模型,采用actor-critic框架,每个智能体都有自己的actor网络和critic网络,以及各自的目标网络;Actor网络负责为智能体制定策略π(ou(τ)|θu),θu代表其网络参数;critic网络输出对最优状态-动作价值函数的估计记为Q(s(τ),a1(τ),...,aU(τ)|wu),wu代表其网络参数;critic网络的输入包含一个时隙内所有智能体的观测值和动作,但在分布执行时,actor网络的输入仅需要自身的观测值;
算法同时对Q函数以及最优策略进行学习,在更新critic网络时,需要从每个智能体的经验池中抽取H组记录,将同样时刻的每组拼接得到H条新记录,记为:{st,i,a1,i,...,aU,i,r1,i,...,rU,i,st+1,i|i=1,2,...,H},使用时序差分集中训练每一个智能体的critic网络,训练Q值函数的损失函数定义为:
其中yu,i由式(24)得到:
其中,和分别代表无人机UAVu的critic目标网络和actor目标网络,目标网络都具有滞后更新的网络参数,使训练变得更稳定;
Critic网络需要尽量降低损失以逼近真实的Q*值,actor网络则用Q值的确定策略梯度作梯度上升更新网络参数以最大化动作价值:
最后在固定的间隔以更新率更新目标网络:
(4)考虑连续状态空间和连续动作空间,利用基于MADDPG的多智能体深度强化学习算法进行计算迁移的模型训练;
(5)在执行阶段,无人机基于当前环境的状态s(τ),利用训练好的模型得到最优的用户卸载方案和飞行轨迹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211341446.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种精密机加工数控车削装置
- 下一篇:干米粉包自动分拣排序机