[发明专利]一种基于深度强化学习的多智能设备任务卸载决策方法在审
| 申请号: | 202210362289.6 | 申请日: | 2022-04-07 |
| 公开(公告)号: | CN115065678A | 公开(公告)日: | 2022-09-16 |
| 发明(设计)人: | 杨鹏;易梦;李冰;陈维威 | 申请(专利权)人: | 东南大学 |
| 主分类号: | H04L67/10 | 分类号: | H04L67/10;H04L41/14;G06N3/08;G16Y10/75 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 智能 设备 任务 卸载 决策 方法 | ||
1.一种基于深度强化学习的多智能设备任务卸载决策方法,其特征在于,包括如下步骤:
步骤1:获取该环境中每个智能终端设备以及环境的配置信息;
步骤2:建立以数据传输速率作为性能评价指标的多智能终端设备卸载模型;
步骤3:基于深度强化学习方法求解最优任务卸载方案;
步骤4:依据总体最优卸载方案进行任务卸载。
2.根据权利要求1所述的一种基于深度强化学习的多智能设备任务卸载决策方法,其特征在于,步骤1:获取该环境中每个智能终端设备以及环境的配置信息,具体如下:
(1)在多智能设备场景中,每个移动用户都是一个智能终端,同时探索未知环境,给定时间步长t时的当前状态St,每个MEC移动用户i得到观测值O(St,i),然后执行生成联合动作Ai,此外,所有的智能终端获得奖励rt并转移到下一个状态St+1的概率为p(St+1,rt|St,A),下一个观测O(St+1,i)由所有智能终端获得;
(2)在真实的MEC场景中,当前状态St包含了所有的通道状态信息,此外,每个智能终端的操作彼此都是未知的,因此,每一个智能终端都需要通过观察来了解整个环境,每个智能终端i的观测包括:信道增益gi,来自其他移动用户的干扰信道增益来自基站的干扰信道增益在每个时间步长t内,上述信道增益均能准确计算,观测值O(St,i)定义为:
3.根据权利要求1所述的一种基于深度强化学习的多智能设备任务卸载决策方法,其特征在于,步骤2:建立以数据传输速率作为性能评价指标的多智能终端设备卸载模型,具体如下,一共有三种卸载模型,用户局部计算模型,用户到服务器模型,用户到用户模型。
4.根据权利要求1所述的一种基于深度强化学习的多智能设备任务卸载决策方法,其特征在于,步骤3:基于深度强化学习方法求解最优任务卸载方案,具体如下,
(1)将动态多智能终端系统模型建模为离散时间随机控制过程模型,即马尔可夫决策过程(MDP)模型,MDP被描述为S,A,r,P,其中S是状态的集合,A是动作的集合,r是动作执行后收到的奖励,P是转移概率,让π:S→A表示策略;
(2)优化问题的目标是通过使累积奖励函数最大化从而得到最优策略,累计函数为其中γ为折现因子,at=π*(st)。
5.根据权利要求1所述的一种基于深度强化学习的多智能设备任务卸载决策方法,其特征在于,步骤4:依据总体最优卸载方案进行任务卸载,即通过合理分配有限的计算资源,能够使任务的数据传输速率达到最大的任务卸载方案,根据步骤3所得到的最优任务卸载方案,对多智能设备任务卸载进行决策,首先依据步骤2的配置信息,应用步骤3进行模型构建,得到步骤4中的最优卸载方案后,实施智能终端任务卸载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210362289.6/1.html,转载请声明来源钻瓜专利网。





