[发明专利]一种基于深度强化学习的计算卸载和资源分配方法在审
申请号: | 202110074232.1 | 申请日: | 2021-01-20 |
公开(公告)号: | CN112911647A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 柯洪昌;王慧;佘向飞;于萍;孔德刚;陈洋 | 申请(专利权)人: | 长春工程学院 |
主分类号: | H04W28/16 | 分类号: | H04W28/16;G06N3/04;G06N3/08 |
代理公司: | 北京盛询知识产权代理有限公司 11901 | 代理人: | 刘静 |
地址: | 130012 吉林*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 计算 卸载 资源 分配 方法 | ||
1.一种基于深度强化学习的计算卸载和资源分配方法,其特征在于,包括以下步骤:
步骤1、初始化计算卸载模型,将周期e和时隙t设置为0;其中,所述计算卸载模型由多个无线设备、基站和移动边缘服务器组成,无线设备在每个时隙t内随机产生任务,将所述任务通过基站卸载到移动边缘服务器上执行;
步骤2、初始化主神经网络参数θ和目标神经网络参数θ’,初始化状态s;其中,所述状态s包括:每个时隙t内,每个无线设备与基站之间的时变通道状态、每个无线设备与基站之间的信噪比和无线设备产生的任务;
步骤3、智能体与环境做互动,根据贪婪策略执行动作a,获得奖励r,并收集下一状态s’;
步骤4、如果样本缓冲池溢出,则将四元组s,a,r,s’顺序存放入样本缓冲池M;否则,将s,a,r,s’随机存放入样本缓冲池,替换样本;
步骤5、随机从样本池中采样m个样本,进行训练;同时计算目标函数和损失函数;
步骤6、利用梯度下降法更新主网络参数θ,同时到达预设周期进行参数复制,即θ’←θ;
步骤7、如果得到最优策略且当前周期e小于最大周期Emax,则返回步骤1,并设置e←e+1;如果没有得到最优策略,则返回步骤2,并设置t←t+1。
2.如权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤2中,所述时变通道状态Hm,w(t)采用如下公式表示:
其中,ρc为正则化的相关系数,t’为时间间隔,ec(t)为错误变量,服从均值为0的复高斯分布。
3.如权利要求2所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤2中,信噪比ζw(t)采用如下公式表示:
其中,Pm,w为无线设备与基站之间的传输功率,aw和hm,w分别是矩阵A和H的第w列,H是M×W通道矩阵,A是与H相关的迫零线性检测器矩阵。
4.如权利要求3所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤2中,WD产生的任务表示为:
Aw(t)≡(tsw(t),cw(t),Tw,max(t))
其中,tsw(t)是WD w的计算任务的输入大小,且计算任务的输入大小服从泊松分布,cw(t)是完成无线设备的计算任务所需的CPU周期数,并且Tw,max(t)是完成计算任务的截止日期。
5.如权利要求1或4所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,步骤3中,所述每个时隙的动作a由两部分做出,即无线设备的任务卸载比例αw和资源分配比例βw,其范围为[0,1]。
6.如权利要求5所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,奖励r为加权的全局代价的负值,定义为:
r=-C(t)=-ω1·Cd(t)-ω2·[Cm(t)+Cb(t)]-Pw
其中,Cd(t)为总延迟,Cm(t)为总能耗,Cb(t)为总的带宽代价,ω1、ω2为权重系数,满足ω1+ω2=1,Pw为无法在截止时间内完成任务的惩罚。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春工程学院,未经长春工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110074232.1/1.html,转载请声明来源钻瓜专利网。