[发明专利]一种基于深度强化学习的网络资源调度方法及系统有效
申请号: | 202110485657.1 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113254197B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 何先灯;叶剑;权风光;易运晖;陈南;朱畅华 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48;G06N3/045;G06N3/08 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 网络资源 调度 方法 系统 | ||
1.一种基于深度强化学习的网络资源调度方法,其特征在于,所述的基于深度强化学习的网络资源调度方法,包括
步骤一,在智能调度平台上初始化经验回放缓存器,并设置其容量;
步骤二,对网络资源调度策略利用随机数初始化其动作-奖励值函数训练模型Q1,并以给定常数初始化其动作-奖励值函数目标模型Q2;
步骤三,利用训练样本,对上述两个模型Q1和Q2进行训练,Q1模型负责和实际网络环境进行交互,得到交互样本;
步骤四,在学习阶段时,奖励值由Q2模型计算得到,然后用它和Q1模型的估计值进行比较得到新的Q1奖励值并更新Q1模型;
步骤五,每当上述步骤三和步骤四训练完成一定轮次的迭代后,Q1模型的参数就会同步给Q2模型,继续进行下一阶段的训练学习;
步骤六,通过步骤三~步骤五过程,目标模型Q2一段时间内固定,减少模型波动性;
步骤七,在智能调度平台上使用经过步骤二~步骤五训练好的目标模型进行网络资源调度以及通信数据的分发控制;
步骤八,智能调度平台根据通信模块反馈数据,不断进行步骤二~步骤五训练-学习的过程,根据实际网络环境不断自适应调整;
所述步骤八中,智能调度平台与环境的交互为离散时间马尔可夫决策过程模型;
在离散时间智能调度平台与环境的接口中,在t时刻,依次会发生以下事件
1)智能调度平台观察状态St∈S的环境,得到观测结果Ot∈O,其中S代表状态空间集合,O代表观测空间集合;
2)智能调度平台根据观测决定动作At∈A,其中A是动作集合;
3)环境根据智能调度平台的动作,给予智能平台奖励Rt∈R,并进入下一个状态St+1,其中R代表奖励空间的集合;
一个时间离散化的智能调度平台和环境之间的交互用一下数学序列表示
S0,O0,A0,R1,S1,O1,A1,R2,S2,O2,A2... (2)
在上述基础上,假设认为奖励Rt+1和下一个状态St+1仅仅依赖与当前的状态St和动作At,而不依赖于更早的状态和动作,定义在t,从状态St=s和动作At=a跳转到下一状态St+1=s'和奖励Rt+1=r的概率为
Pr[St+1=s',Rt+1=r|St=s,At=a] (3)
对于上述马尔可夫决策过程,定义函数p:S×R×S×A→[0,1]为马尔可夫决策过程的动力:
p(s',r|s,a)=Pr[St+1=s',Rt+1=r|St=s,At=a] (4)
利用动力的定义,推出其他导出量,
状态转移概率:
给定“状态-动作”的期望奖励:
给定“状态-动作-下一个状态”的期望奖励:
所述在马尔可夫决策过程中,定义策略为从状态到动作的转移概率,对于马尔可夫决策过程,其策略为从状态到动作的转移概率,其策略π:S×A→[0,1]定义为
π(a|s)=Pr[At=a|St=s],s∈S,a∈A (8)
对于动作集为连续的情况,可以用概率分布来定义策略;
对于回报Gt的定义,在连续性的任务没有终止时间,所以Gt会包括t时刻后的所有奖励信息,如果对未来所有的奖励简单求和,会导致总和往往是无穷大,针对这个问题,引入折扣的概念,定义回报为
折扣因子γ决定了在最近的奖励和未来的奖励间进行折中,基于回报的定义,进一步定义价值函数;对于给定的策略π,定义价值函数;
所述价值函数为:
状态价值函数:状态价值函数vπ(s)表示从状态s开始采用策略π的预期回报,
vπ(s)=Eπ[Gt|St=s] (10)
动作价值函数:动作价值函数qπ(s,a)表示在状态s采取动作a后,采用策略π的预期回报,
qπ(s,a)=Eπ[Gt|St=s,At=a] (11)
最优策略和最优价值函数:对于一个动力,存在一个策略π*使得所有策略的回报都小于等于这个策略,此时这个策略π*被称作最优策略;最有优价值函数具有一个重要的信息-Bellman最优方程,Bellman最优方程求解最优价值函数;
所述Bellman最优方程有以下两个部分:
A、用最优动作价值函数表示最优状态价值函数
vπ(s)=maxq*(s,a),s∈S (12)
B、用最优状态价值函数表示最优动作价值函数
Q学习(Q-learning)是一种的基础强化学习算法,它使用二维表格来记录智能体的环境-动作-奖励值的之间的映射关系,表格的行、列、单元格分别对应着环境状态S、可执行动作A、当前环境状态S下选择动作A得到估计Q值;
当智能体需要根据当前环境状态选择动作,将计算所有动作的Q值,根据计算出来Q值选择下一个执行动作,Q-learning中Q值更新表达式定义如公式(14)所示:
Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)-Q(St,At)] (14)
其中α∈(0,1],α表示学习率,值越大表示越重视当前训练的结果;γ∈[0,1],γ是折扣因子表示对信息的学习程度,值越大表示越重视以往的经验;
Q-learning采用表格形式来表示从环境获取的状态以及可选择的动作,故又称之为表格型强化学习,表格行列数有限;
对于环境状态集合S、选择动作集合A和值函数集合Q,存在S×A→Q这样的映射关系,将求解值函数的问题转化为监督学习形式;使用神经网络来充当Q-learning的查询表,将深度学习引入到强化学习中,从而开创了深度强化学习模型DQN理论;
在Q-learning中,通过当前时刻的回报和下一时刻的Q值估计进行更新,由于数据本身存在着不稳定性,每一轮迭代都可能产生一些波动,这些波动会立刻反映到下一个迭代的计算中,引入目标网络DQN算法;
DQN算法使用目标神经网络与评估神经网络双网络架构,初始化时在原有的Q评估网络基础上,又搭建了结构相同的Q-target目标网络,通过最小化误差函数来更新神经网络权重值参数w,DQN算法基于Q学习理论来定义Loss函数:
L(w)=E[(r+γmaxa'Qeval(s',a';w')-Qeval(s,a;w))2] (15)
在初始参数w0已知的条件下,由公式(15)有:
通过优化目标最小化Loss函数得到w1,类推最终实现参数w收敛:
沿着Loss函数对w的梯度反方向来更新w,就能有机会减小损失,因此利用随机梯度下降法不断更新神经网络权重值w完成训练过程,最终可得到最优价值函数:
其中,参数w更新公式为:
在DQN资源调度模型训练学习过程中,评估网络每次训练后都更新神经网络权重值w,它使用最新权重值w来评估当前状态动作对应的值函数Q(s,a;w);目标网络在评估网络权重值w完成一定次数的更新后,将评估网络的权重值w赋给目标网络的权重值w-,接着进行下一批更新;目标网络在没有变化的一段时间内回报的估计值是相对固定的;强化学习通过内部智能体在外部环境交互过程中不断试错,通过最大化积累函数来实现最优决策,是一种无监督的机器学习方法;在通信网络资源调度时,根据当前智能体对网络状态的观测,为不同网络业务流传输分配网络带宽资源也就是选择行为,同时得到该行为的期望累计奖励,为后续决策和行动的选择提供依据,强化学习DQN算法消除样本之间的相关性,使模型具有稳定的收敛性,引入了经验回放机制,使用经验库T来学习之前的经历实现经验回放,学习当前经历以及过去的经历,并且对其他智能体的经历进行学习,是一种离线学习法;在t时刻智能体与环境交互得到转移样本(st,at,rt,st+1)并存储到经验库,当经过一定时间的交互过程后,经验库中存储一定数量的样本,然后随机抽取一批样本进行训练;经验回放可以消除转移样本时间的相关性,使得样本更符合独立同分布条件,减少参数更新的方差,加快收敛;
结合DQN深度强化学习算法的网络资源调度机制需要明确环境的调度空间、调度选择的动作空以及资源调度的奖励函数;选择合适的环境状态空间对强化学习DQN算法非常重要;将网络传输带宽作为网络状态环境,通过通信模块获取当前用户通信业务状态,包括紧急通话业务、短消息通信业务、语音通信业务和多媒体通信业务,定义环境的状态空间为:
S=[TB,EC,MC,VC,SC] (19)
其中TB表示实时网络可用的带宽资源,EC、MC、VC、SC分别是紧急通话、短消息通信、语音通信、多媒体通信请求占据传输带宽;
对当前通信系统中网络资源进行调度的决策动作空间可以表示为:
A=[EB,MB,VB,SB] (20)
其中EB、MB、VB、SB对应网络资源调度模块为紧急通信、短消息通信、语音通信、多媒体通信分配的网络带宽资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110485657.1/1.html,转载请声明来源钻瓜专利网。