[发明专利]基于强化学习的低时延网络切片方法有效

申请号：	202110334767.8	申请日：	2021-03-29
公开（公告）号：	CN113098714B	公开（公告）日：	2023-07-11
发明（设计）人：	朱洪波;高健;朱晓荣	申请（专利权）人：	南京邮电大学
主分类号：	H04L41/0894	分类号：	H04L41/0894;H04L41/0895;H04L41/16;H04L41/40;H04L41/0896;H04L41/0823;H04L41/14
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	牛莉莉;周湛湛
地址：	210012 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习低时延网络切片方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：包括以下步骤：

步骤1：首先构建物理网络和服务功能链的数学模型，针对低时延的网络切片的约束条件，对物理网络中的每一条服务功能链进行建模，形成低时延网络切片的数学模型；

其中，低时延网络切片的数学模型建模过程如下：

把底层的物理网络结构建模为有向图G＝{N，E}，其中N表示的是底层物理节点集合，底层的网络节点集合通过N＝{n₁，n₂，..，n_|N|}进行表示，n_x表示的是物理节点集合中的第x个物理节点(x∈{1，2，...，|N|})，在底层的物理节点n_x上都拥有计算、存储资源分别为E表示的是连接任意两个物理节点之间的链路集合，链路(n_x，n_y)∈E的链路带宽资源大小为

对网络中的服务功能链进行建模表示.在网络中假设[0，T]时间内会产生K条低时延的服务功能链，分别可以表示为S₁，S₂，…，S_K，那么每条服务功能链由|S_i|(i∈{1，2，...，K})个VNF构成，每条服务功能链所需的带宽资源大小为服务功能链S_i的VNF集合可以表示为其中S_ij表示的是第i条服务功能链的第j个VNF的实例，每个VNF所需要的计算、存储资源分别为每条低时延业务的时延约束条件为T_i；

步骤2：对当前物理网络场景下的服务功能链进行马尔可夫模型构建，定义当前场景下的状态、动作及奖励值；服务功能链的马尔可夫模型构建如下：

(1)状态空间

状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述，定义为S(t)＝{C(t)，M(t)，B(t)，V(t)，e(t)}；其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量，M(t)表示的是节点剩余的存储资源的向量，其表达式为B(t)则表示的是节点之间链路剩余带宽的向量，其表达式为如果两个节点之间没有连接的链路则始终保持为0；V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量表示的是在时刻t在物理节点n_x上映射的虚拟网络功能的向量，其表达式为定义为服务功能链S_i，t时刻在节点n_x的映射情况的向量表示在t时刻虚拟网络功能S_ij是否映射在节点n_x上，则有且定义整个网络中K条服务功能链状态的一维矩阵其中如果表示服务功能链S_i正在正常的映射运行，表示服务功能链S_i在下一个时刻即将进行映射服务，若表示服务功能链S_i还要继续进行等待进行服务，若则表示服务功能链S_i由于某种原因没有进行映射成功，则表示该服务功能链进行了成功的路由和资源映射；

(2)动作空间

在进行下一个动作的节点映射选择时，进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合，定义物理网络中节点的n_x的相邻的节点的集合为n_x^NEI可以表示为映射在节点n_x中的所有的VNF的下一跳的选择只能是n_x^NEI中的节点进行选择；动作空间是由所有节点当前所映射的VNF共同决定和构成的，定义A(t)为t时刻的动作空间，其中表示的是在节点n_x上所映射的VNF的下一跳动作的集合；

定义在t时刻在节点n_x上的VNF的动作集合为其表达式定义为其中表示VNF S_ij在t时刻映射到节点n_x上，下一跳的节点选择则会在n_x的相邻的节点集合中按照策略进行选择映射，则表示的是选择下一跳的结果，如果选择n_x^NEI中的第m个相邻节点则否则为0，因此有的表达式为

(3)奖励值的设置

在[0，T]的时间内总共会随机的产生总共K条低时延的服务功能链，假设服务功能链S_i完成部署成功所获得的奖励值为奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的，如果服务功能链S_i在下一时刻全部映射成功完成，则获得的奖励值，如果是正在等待进行映射在下一时刻映射成功，获取的奖励值，如果在映射过程中出现服务功能链映射失败，获得的奖励值为其他情况下的奖励值为0；在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下，其中R_c表示全部映射完成的奖励值，R_w表示等待进行映射的服务功能链映射成功的奖励值，R_f则表示映射失败的奖励值，下面给出了其对应的计算表达式：

R(S(t)，A(t)，S(t+1))＝R_c+R_w-R_f (9)

其中表示如果满足服务功能链状态并且时值为1，否则为0；

其中如果满足服务功能链状态或者并且时值为1，否则为0；

(4)强化学习求解大状态空间问题

使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题；

在时间戳t时刻获得的奖励值可以表示为R_t＝R(S(t)，A(t)，S(t+1))，从当前时间戳开始到结束所获得的累计折扣奖励值表示为：

在表达式(10)中γ∈[0，1)是折扣因子；

定义深度强化学习在状态S(t)采取的动作的策略为π(a|s)＝P(A(t)＝a|S(t)＝s)，在网络切片的路由和资源分配的问题中，策略π表示的是当前映射的所有服务功能链中的下一个服务功能的路由映射和资源分配：为了评价制定的策略π(a|s)的好坏并且希望智能体在与环境交互过程中执行动作中获得平均期望回报奖励，因此定义值函数Q^π(s，a)＝E_π(G_t|S(t)＝s，A(t)＝a)，通过相应的策略的调整来最大化值函数，获取在低时延网络切片业务场景下最优的路由和资源分配的策略，在进行动作的选择过程中是采用的ε策略，以1-ε的概率选择最优的策略，以ε的概率进行动作的随机探索，这样可以进行整个状态空间的探索，其表达式如下：

深度强化学习是采用深度的Q值网络来作为对值函数的逼近，深度强化学习利用深度神经网络来近似参数化的值函数Q^π(s，a；θ)，它将当前的状态作为整个网络的输入，输出当前状态下每个动作下的状态动作值函数，在进行神经网络的训练过程中对Q值的迭代公式如下所示：

在神经网络进行训练的过程中采用经验池的机制，将(S(t)，A(t)，S(t+1)，R_t)的四元组作为一个训练样本存放到经验池中，用于对神经网络的训练，以更有效地利用以前的经验；此外，使用经验池的机制，使得数据更像是独立且分布均匀的数据，以降低数据之间的相关性；

由于在进行Q值网络的训练过程中Q值的更新容易发生震荡，呈现出不稳定的学习行为，因此使用了带有target网络的深度强化学习，可以提升算法的稳定性；

步骤3：提出基于强化学习的低时延网络切片的路由和资源分配的算法，具体内容如下：

(1)初始化经验池大小为D；

(2)初始化Q值神经网络的权值为随机值θ；

(3)目标值网络神经网络的权值为θ^；

(4)随机生成网络功能服务链加入到物理网络进行映射；

(5)通过ε策略选择动作，以ε的概率选择随机动作A(t)，其他情况选择

(6)执行动作A(t)获取奖励值R_t状态转换为下一个状态S(t+1)；

(7)将样本(S(t)，A(t)，S(t+1)，R_t)存入到经验池；

(8)从经验池中随机选取样本进行训练；