[发明专利]一种基于多分类和分布式强化学习的卸载决策优化方法在审
申请号: | 202111179658.X | 申请日: | 2021-10-11 |
公开(公告)号: | CN113905049A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 吴涛;邓宇萍;陈曦 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | H04L67/1004 | 分类号: | H04L67/1004;H04L67/1097;G06F9/445;G06F9/50;G06N3/04;G06N3/08 |
代理公司: | 成都智涌知识产权代理事务所(普通合伙) 51313 | 代理人: | 魏振柯 |
地址: | 610200 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分类 分布式 强化 学习 卸载 决策 优化 方法 | ||
1.一种基于多分类和分布式强化学习的卸载决策优化方法,其特征在于,所述优化方法包括:
步骤1:基于一个智能巡检集群的边缘系统模型,首先获取所述模型内智能巡检设备和边缘设备的参数信息和网络参数信息,然后采集若干不同时间段t内所述智能巡检设备产生的任务信息以及所述智能巡检设备与所述边缘设备之间的距离信息,并对采集到的信息进行预处理;
步骤2:计算所述边缘系统完成时间段t内的任务处理时延和能耗,分别包括本地计算和边缘计算,具体如下:
本地计算的时延计算方法是某个任务i的CPU工作负载除以计算任务i的所述智能巡检设备n的CPU频率;
本地计算的能耗计算的数学表达式是其中是智能巡检设备的有效开关电容;
边缘计算时延和能耗的计算方式分为两部分,一部分是智能巡检设备传输任务数据到边缘设备所产生的时延和能耗,另一部分是边缘设备处理任务所产生的时延和能耗;
对每个时间段t内,智能巡检集群的边缘系统内所有的智能巡检设备产生的任务并行执行,即t时间段内同时处理该时间段产生的所有任务,因此所述系统的时延取所有任务中处理时延最大的值,而能耗取处理所有任务能耗的总和;
步骤3:构建分布式强化学习神经网络结构,基于多分类和分布式思想,所述网络结构包括多个深度学习神经网络DNN,配置所述神经网络DNN的个数K,所述神经网络的输入层、输出层和隐藏层的神经元个数,确定神经网络的超参数;
步骤4:训练构建好的分布式强化学习神经网络,具体包括两个阶段,候选卸载决策动作生成阶段和资源分配阶段,具体包括:
步骤41:候选卸载决策动作生成阶段,具体为将步骤1获取的所述任务信息和距离信息分别作为K个DNN的输入进行前向传播获得输出结果,生成设定时间段t内所有任务的候选卸载决策动作,计算所有候选卸载决策动作的时延和能耗的加权和,选出两者加权和最小的候选动作;
步骤42:资源分配阶段,将任务信息、距离信息以及任务的卸载决策存入共享内存,具体包括:
步骤421:计算每个候选卸载决策动作是否满足目标问题的约束条件∑i∈Ixniw(t)fn(t)≤fn,max和∑ni∈NIxniw(t)fnw(t)≤fw,max;如果不满足,则舍弃该候选动作,然后从剩余的候选卸载决策动作中选择奖励函数re(t)值最大的方案;
步骤422:将奖励函数re(t)最大对应的卸载决策以及输入信息组成元组((Rni(t),Disni(t),∑w∈Wxniw(t)))存储在一个共享内存中;
步骤423:对于K个DNN,每隔固定数量的时间段t之后,每个DNN分别从所述共享内存中随机采样进行学习,获取部分任务信息、距离信息和候选卸载决策动作信息对DNN进行训练,通过采用优化器和最小化交叉熵损失函数进行神经网络的参数θk更新,使更新后的参数θk让目标函数不断逼近全局最小;
步骤5:每个神经网络经过一定episode的训练之后,损失函数趋于平稳,停止训练,固定此时的参数θk,此时输入选择时间段t+1内的任务信息和距离信息即可获得该选择时间段内所有任务最佳的卸载决策,实现最小化系统能耗和加权和的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111179658.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种柔性组合线路板的生产工艺
- 下一篇:一种滤波器与功分器的集成结构