[发明专利]基于元强化学习的缓存辅助任务协作卸载与资源分配方法有效

申请号：	202110704204.3	申请日：	2021-06-24
公开（公告）号：	CN113434212B	公开（公告）日：	2023-03-21
发明（设计）人：	芮兰兰;高志鹏;陈世优;杨杨;李文璟	申请（专利权）人：	北京邮电大学
主分类号：	G06F9/445	分类号：	G06F9/445;G06F9/50
代理公司：	北京挺立专利事务所(普通合伙) 11265	代理人：	高福勇
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习缓存辅助任务协作卸载资源分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于元强化学习的缓存辅助任务协作卸载与资源分配方法，其特征在于，包括以下四个步骤：

S1、在移动协作式应用场景下建立缓存辅助的任务协作卸载与资源分配模型，包括边缘环境模型、计算任务模型、计算任务执行方式模型、时延模型、能耗模型、缓存效益模型、马尔可夫决策过程卸载模型；

步骤S1中时延模型建立方法为：任务在移动设备本地执行时延为其中，w_i为任务i所需要的计算资源，f_n为MD_n的CPU计算能力；任务通过计算卸载到边缘执行的数据上传时延为其中，表示任务i的输入数据大小，R_n，m表示MD_n到边缘节点m之间的链路数据率；任务通过计算卸载到边缘执行的任务处理时延为其中，f_m为节点m的CPU计算能力；任务通过计算卸载到边缘执行的数据接收时延为其中，表示任务i的输出数据大小，R_n，m表示MD_n到边缘节点n之间的链路数据率；任务通过计算卸载到边缘执行的任务间参数的传输时延包括一跳模式和两跳模式两种情况：1)一跳模式：任务i+1执行节点在任务i执行节点的通信范围内，任务i与任务i+1之间直接通信传递中间参数，设节点m需要的参数数据量大小可表示为J_m，则一跳模式下的参数传输时延为：2)两跳模式：任务i+1执行节点不在任务i执行节点的通信范围内，中间参数可通过一个任意的转发节点完成传输，设两跳模式下转发节点为n，则两跳模式下的参数传输时延为缓存辅助的应用程序卸载调度决策达成的应用程序执行总时延为：

步骤S1中能耗模型为：任务在移动设备本地执行能耗：其中，v_n为MD_n上每个CPU计算周期所消耗的能量，v_n＝κf_n²，κ为能量系数；任务通过计算卸载的总能量消耗主要包括：向边缘服务器上传数据的能耗和从边缘服务器接收数据的能耗，分别为和P_n为MD_n向边缘节点m的发送功率，为从边缘节点m的接收功率；缓存辅助的应用程序卸载调度决策完成的应用程序执行总能耗为：

S2、获取请求任务的缓存状态，S2包括以下步骤：

S201、输入缓存执行阈值δ_s和缓存删除阈值δ_d；

S202、计算缓存效益CU(i)；

S203、决定任务缓存状态K，当缓存增益大于执行阈值δ_s时，将其缓存在移动边缘计算的节点上；当缓存增益小于删除阈值δ_d时，不进行缓存；

S3、获得学习模型，S3包括以下步骤：

S301：通过全拓扑排序算法求解任务执行序列Q^G；

S302：采样k个学习任务，初始化元策略参数θ；

S303：采样获得状态行为集合，采取相应的动作，评估奖励；

S304：判断奖励是否收敛或者是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取参数集合{θ′₁，θ′₂，...，θ′_k}，当奖励不收敛或未达到迭代次数上限时，更新参数θ′_k，同步评估网络和策略网络的参数返回步骤S302；

S305：通过Adam更新元策略参数；

S306：判断奖励是否收敛或者是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，输出学习模型；当奖励不收敛或未达到迭代次数上限时，返回S304；

S4、求解卸载决策，S4包括以下步骤：