[发明专利]基于深度强化学习的动态服务功能链编排方法及系统在审
申请号: | 202210060694.2 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114172937A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 刘亮;杜娅荣;桂晓菁;陈翔;侯泽天;赵国锋;徐川;曾帅 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04L67/12 | 分类号: | H04L67/12;H04L41/12;G06N3/08;G06N3/02 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 林菲菲 |
地址: | 400000 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 动态 服务 功能 编排 方法 系统 | ||
1.基于深度强化学习的动态服务功能链编排方法,其特征在于,包括以下步骤:
S1、根据SDN控制器获取历史网络状态;网络状态包括支持移动边缘计算的物联网网络中产生的服务功能链请求流信息以及对应的网络资源状态信息;
S2、根据网络状态设定深度强化学习参数并初始化神经网络的权重;
S3、根据智能体与环境交互产生的经验样本训练神经网络;
S4、对于实时获取的服务功能链请求流,利用训练好的神经网络,采用启发式算法,确定并部署满足服务功能链请求流要求的虚拟化网络功能的放置与路由路径。
2.根据权利要求1所述的基于深度强化学习的动态服务功能链编排方法,其特征在于,所述步骤S1中,服务功能链请求流按预定义的顺序依次遍历不同的VNF;网络资源状态信息包括微云上CPU计算资源的剩余率、链路上带宽资源的剩余率、微云上VNF实例的处理时延和链路上数据流量的传输时延。
3.根据权利要求1所述的基于深度强化学习的动态服务功能链编排方法,其特征在于,所述步骤S2中,初始化神经网络的权重包括:
初始化经验池,将智能体与环境交互产生的经验样本存入经验池中;
将第一状态值函数Q作为在线网络,并随机初始化Q对应的权重参数θ,将第二状态值函数作为目标网络,并将对应的权重参数θ-初始化值与θ相同。
4.根据权利要求1所述的基于深度强化学习的动态服务功能链编排方法,其特征在于,所述步骤S2中,神经网络包括VNF放置神经网络和流量路由神经网络,设定深度强化学习参数包括设定强化学习中马尔科夫决策过程的相关参数:
状态S:其中,Sp为VNF放置神经网络的输入,Sr为流量路由神经网络的输入,为微云c上CPU计算资源的剩余率;为属于服务功能链请求流i的类型为p的VNF的CPU计算资源需求,为请求流i可容忍的最大延迟;Be,Be+1分别表示路径(e,e+1)上起始节点e和目的节点e+1的二进制编码;为第l条链路上带宽资源的剩余率;为请求流i的带宽资源需求;
动作A:VNF放置神经网络的动作为请求流i需要遍历的VNF实例的集合;流量路由神经网络的动作为起始节点和目的节点之间的路由路径;
奖励R:VNF放置神经网络的奖励为微云上的处理时延和CPU计算资源消耗成本之和,流量路由神经网络的奖励为请求流i在链路上的传输时延和带宽资源消耗成本的加权和。
5.根据权利要求1所述的基于深度强化学习的动态服务功能链编排方法,其特征在于,神经网络包括VNF放置神经网络和流量路由神经网络,则步骤S3中训练神经网络的过程包括:
训练VNF放置神经网络:
从当前网络状态中获取VNF放置神经网络的输入,并利用经验样本训练VNF放置神经网络,输出最优VNF实例组合;
训练流量路由神经网络:
获取最优VNF实例组合及当前网络状态作为流量路由神经网络的输入,并利用经验样本训练流量路由神经网络,输出路由路径。
6.根据权利要求5所述的基于深度强化学习的动态服务功能链编排方法,其特征在于,经验样本以四元组的形式进行存储:{S,A,R,S′},表示智能体在状态S下执行动作A,到达新的状态S′,并获得相应的奖励R。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210060694.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种物联网安全协议系统
- 下一篇:一种挂壁吸铁式安全隔离装置