[发明专利]一种基于策略梯度的公交车辆计算任务卸载方法在审
申请号: | 202110654075.1 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113382383A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 孔祥杰;倪琦超;段高辉;侯明良;夏锋 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | H04W4/40 | 分类号: | H04W4/40;H04W24/02;H04W24/06;H04W28/02;H04W28/08;G06F9/445;G06F9/50 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 策略 梯度 公交 车辆 计算 任务 卸载 方法 | ||
1.一种基于策略梯度的公交车辆计算任务卸载方法,步骤如下:
(1)构造公交车辆网络的环境状态,包括公交车辆状态、车联网络信道增益的状态和边缘服务器可用的计算能力,其中公交车辆状态包括公交车辆移动速度、公交车辆所处位置、所需卸载任务的大小;环境状态综合可以表示为:
st=[Di(t),Γk(t),Fk(t)] (1)
其中Di(t)表示公交车辆状态,Γi(t)表示车联网络信道增益,Fi(t)表示边缘服务器可用的计算能力;
(2)构造公交车辆网络中的系统动作;在时间段t内,公交车辆网络采取的动作可以由边缘服务器k为公交车辆分配的计算资源fi,k(t)以及边缘服务器k为公交车辆分配的信道状态组成,具体表示为:
(3)构造公交车辆网络中的奖励函数;公交车辆i在时间t上卸载计算任务的瞬时效率Ri,k(t)由通信速率和瞬时计算率组成,如下式:
整个公交车任务卸载和资源分配的联合优化问题就变为最大化t时刻所有公交车辆的瞬时效率之和;
(4)收集当前公交车辆网络的状态空间,然后将状态空间通过元组的形式发送到“演员网络”,最后“演员网络”依据当下的动作策略Ω选择当下的动作:
at=Ω(t)=μ(st,θμ)+Nt (4)
其中,θμ是“演员-在线”神经网络的参数,Nt是随机噪声,st是当前的状态,μ是神经网络模拟的当前在线策略;
(5)公交车辆网络的状态空间依据上述步骤(4)的动作进行更新,得到新的交车辆网络的状态空间st+1;公交车辆按照上述步骤(4)的动作进行计算卸载,与此同时边缘服务器为公交车辆分配相应的通信带宽和计算资源;
(6)根据公交车辆网络的动作空间以及状态空间计算t时间段的奖励Rt,“演员网络”将转换元组(st,at,Rt,St+1)储存于经验重放池中用来训练集更新“演员-在线”深度神经网络;
(7)“演员-目标”深度神经网络根据步骤(5)得到的新状态st+1,利用神经网络模拟目标动作a’t:
a’t=μ’(st+1,θμ’)+N’t (5)
其中N’t是随机噪声,θμ’是“演员-目标”神经网络的参数,μ’是“演员-目标”神经网络模拟得到的目标在线策略;
(8)使用Q值来评估步骤(4)中的在线策略μ,来表示公交车辆网络在状态st下采取动作at,并且一直采用当前在线策略μ的情况下所得到的奖励期望值;公式如下:
Qμ(at,st,θμ)=E[r(at,st)+γQμ(st+1,μ(st+1,θQ),θμ)] (6)
其中,θQ为“评价-在线”神经网络的参数,γ为衰减系数,r(at,st)为奖励值计算Rt函数;“评价-在线”神经网络通过在经验重放池中取样带入Qμ(at,st,θμ)训练神经网络来求出Q值;
(9)“评价-目标”神经网络通过计算目标值来对“评价-在线”神经网络进行训练以及参数更新,在这里目标值的计算方法如下:
yt=r(at,st)+γQμ’(st+1,μ’(st+1θμ’),θQ’) (7)
其中,Qμ’使用“评价-目标”神经网络得到在状态st+1下使用策略μ’的Q值,γ为衰减系数,θQ’为“评价-目标”神经网络的参数;
(10)通过最小化均方差损失函数计算出最优的θQ值,其均方差损失函数定义如下:
其中,Qμ指通过“评价-在线”神经网络得到在st状态下采取at动作并且一直使用策略μ时的Q值,N表示从经验重放池中采样的数量;
(11)基于上述步骤(10)中得到最优的θQ参数与从经验重放池中取出的训练数据,使用函数J(μ)来评价策略μ的表现,通过使J(μ)最大化来找最优策略;采用蒙特-卡洛法求解函数J(μ)策略梯度:
其中,N在这里表示训练数据的数量,用来表示函数的梯度;
(12)通过软更新的办法使用“评价-在线”神经网络的参数与“演员-在线”神经网络的参数分别更新“评价-目标”神经网络的参数以及“演员-目标”神经网络的参数:
在这里τ是更新系数;优化目标函数是公交车辆网络系统中奖励函数的累计值,累计值在网络训练时趋于收敛,那么得到优化目标函数的最优解,即作为最优的资源分配方案。
2.如权利要求1所述的一种基于策略梯度的公交车辆计算任务卸载方法,其特征在于:步骤(12)中更新系数τ取值为0.001。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110654075.1/1.html,转载请声明来源钻瓜专利网。