[发明专利]基于深度强化学习的网络能耗与吞吐量联合优化路由方法在审
申请号: | 202210437000.2 | 申请日: | 2022-04-22 |
公开(公告)号: | CN114710439A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 叶彬彬;罗威;李洋;丁忠林;吕超;蔡万升 | 申请(专利权)人: | 南京南瑞信息通信科技有限公司 |
主分类号: | H04L45/12 | 分类号: | H04L45/12;G06N3/08;G06N3/04;G06F17/11 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 母秋松 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 网络 能耗 吞吐量 联合 优化 路由 方法 | ||
1.一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法,其特征在于:,包括如下步骤:
将数据中心网络的路由调度描述为具有最大化网络吞吐量和最小化能量消耗两个目标的混合整数非线性规划问题P0;
采用具有深度强化学习算法的智能体对混合整数非线性规划问题P0进行优化,最终获得优化后的数据中心网络的路由调度方案。
2.根据权利要求1所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:所述混合整数非线性规划问题P0的表达公式如下:
P0:min W=∑e∈Eg(xe)
其中,W为网络能耗,T为网络吞吐量,e为链路,E为数据链路的集合,g(xe)为链路e上的能耗,xe为链路e上的所有数据流量之和,s为源交换机,d为目的交换机,fs,d为从源交换机s到目的交换机d的数据流,V为数据中心网络中的交换机节点,为通过链路e的数据流,σ是链路空闲时的能耗,Ce是链路的带宽容量,β是链路冗余参数,α为指数,μ表示一个二进制变量,μ=1表示链路e是活动链路,而μ=0是非活动链路,u和v为链路e的两个端点,即u,v∈V,表示源节点为s并且目的节点为d的业务经过链路(u,v)的业务量、表示源节点为d并且目的节点为s的业务经过链路(u,v)的业务量,fu,v表示链路(u,v)上业务量。
3.根据权利要求1所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:采用具有深度强化学习算法的智能体对混合整数非线性规划问题P0进行优化的方法,包括如下步骤:
网络状态st输入智能体,智能体依据当前策略πt针对每个决策行为at计算得到的值;
以概率ε选择随机行为at,以概率1-ε选择最大值作为新的行为at*;
使用动作at*与环境交互并观察下一个状态st+1以及奖励值rt;
将数据元组{st,at,rt,st+1}作为新的训练数据,将上述过程不断重复迭代,直到生成一定数量的训练数据;
用一定数量的训练数据对智能体进行训练,当损失函数收敛到阈值时,输出智能体的参数;
利用智能体的参数更新智能体,更新后智能体获得的计算结果对问题P0进行优化,最终获得优化后的数据中心网络的路由调度方案。
4.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:用一定数量的训练数据对智能体进行训练,当损失函数收敛到阈值时,输出智能体的参数包括:
将训练数据输入Bellman方程,获得
将输入损失函数,并通过梯度下降法来优化损失函数,当损失函数收敛到阈值时,输出智能体的参数;
Bellman方程表达式如下:
其中,r(st,at)指的是在网络状态st下决策行为at的奖励,γ是综合当前和未来奖励的折扣因子,是下一个网络状态st+1的值;
损失函数表达式如下:
其中,θt表示当前时刻下智能体的参数。
5.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案,其特征在于:所述网络状态st设置为业务流量需求fs,d、业务接入位置s、DCN中使用的链路以及链路的负载的综合表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京南瑞信息通信科技有限公司,未经南京南瑞信息通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210437000.2/1.html,转载请声明来源钻瓜专利网。