[发明专利]一种边缘计算系统的多无人机任务卸载和资源分配的方法在审
申请号: | 202110657342.0 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113395654A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 郑镐;蒋丽;赖健鑫;陈湛文 | 申请(专利权)人: | 广东工业大学 |
主分类号: | H04W4/02 | 分类号: | H04W4/02;H04W4/44;H04W24/02;H04W72/04;H04L29/08;G06F9/50;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 边缘 计算 系统 无人机 任务 卸载 资源 分配 方法 | ||
1.一种边缘计算系统的多无人机任务卸载和资源分配的方法,其特征在于:所述的方法包括步骤如下:
S1:制定系统状态St,将无人机的当前位置、无人机的相对距离、无人机与物联网智能设备的相对距离、物联网智能设备的服务次数组合成系统状态St;
S2:构建深度确定性策略梯度优化神经网络,初始化神经网络参数包括权重、偏置、学习率、神经网络的层数;
S3:将系统状态St输入到深度确定性策略梯度优化神经网络中进行训练,得到系统动作,所述的系统动作包括物联网智能设备的卸载决策、无人机的飞行方向、无人机的飞行距离、无人机分配给对应物联网智能设备的计算资源;
S4:边缘计算系统根据步骤S3得到的系统动作执行相应的动作,并根据即时回报函数得到该系统动作的报酬值;
S5:根据得到的报酬值继续训练深度确定性策略梯度优化神经网络的参数,直到报酬值趋于稳定,由此完成对深度确定性策略梯度优化神经网络的训练,训练得到最优的策略π,所述的策略π包括最佳的无人机轨迹、卸载方案和计算资源分配方案。
2.根据权利要求1所述的边缘计算系统的多无人机任务卸载和资源分配的方法,其特征在于:所述的深度确定性策略梯度优化神经网络包括动作神经网络、批评家神经网络;
所述的动作神经网络将系统状态St作为输入,输出动作At,得到策略π定义为一个映射π:St→At;其中,t表示时隙;
对于任何动作At,采用评论家神经网络用于评估预期的长期回报,来指导动作At向更好的方向发展,定义为一个映射Q(St,A)→R。
3.根据权利要求2所述的边缘计算系统的多无人机任务卸载和资源分配的方法,其特征在于:在决策时隙t时,所述的动作神经网络接收系统状态St,并产生动作At,同时获得下一个网络状态St+1;
马尔科夫过程的即时回报函数Rt等于采取一个动作从当前状态St到达下一个状态St+1所付出的代价;
然后,将(St,At,Rt,St+1)存放在记忆内存中;在每个训练阶段,从记忆内存中选取样本来进行学习更新动作神经网络和评论家神经网络的参数,以达到长期报酬的最大化,也即最优化的目标函数,所述的目标函数定义为max Eπ,s[R(St+1|St,π(At))]。
4.根据权利要求3所述的边缘计算系统的多无人机任务卸载和资源分配的方法,其特征在于:对于动作神经网络,将从记忆内存中选择样本Ω={(St,At)|t∈Γ},其中,Γ代表样本索引;使用机器学习中Adam优化器向最小化代价函数L(θu)的方向更新动作神经网络的参数θu,其中,u(St)表示当前动作神经网络输入St所产生的输出;
通过优化最小化代价函数L(θu)来更新动作神经网络的参数θu,学习到最优策略π,从而完成训练过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110657342.0/1.html,转载请声明来源钻瓜专利网。