[发明专利]强化学习智能体训练方法、模态带宽资源调度方法及装置有效
申请号: | 202210782477.4 | 申请日: | 2022-07-05 |
公开(公告)号: | CN114866494B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 沈丛麒;张慧峰;姚少峰;徐琪;邹涛;张汝云 | 申请(专利权)人: | 之江实验室 |
主分类号: | H04L47/70 | 分类号: | H04L47/70;H04L47/12;H04L49/50;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化 学习 智能 训练 方法 带宽 资源 调度 装置 | ||
本发明公开了强化学习智能体训练方法、模态带宽资源调度方法及装置,其中强化学习智能体训练方法在多模态网络下,利用强化学习智能体与网络环境不断交互,获取最新全局网络特征并输出更新后的动作。通过调节模态所占用的带宽,设定奖励值为智能体确定优化目标,实现模态的调度,保障多模态网络资源合理使用。训练后的强化学习智能体应用于模态带宽资源调度方法中,能自适应于不同特征的网络中,可用于多模态网络的智慧管控,具有良好的适应性及调度性能。
技术领域
本发明属于网络管控技术领域,尤其涉及强化学习智能体训练方法、模态带宽资源调度方法及装置。
背景技术
在多模态网络中,同时运行着多种网络技术体制,每一种技术体制即为一种网络模态。各网络模态共享网络资源,如不加以管控,则会导致各网络模态直接竞争网络资源,如带宽等,这会直接影响部分关键模态的通信传输质量。因此,对网络中的各个模态进行合理管控是保障多模态网络稳定运行的必要前提之一。
对于上述需要,目前主流技术是控制交换机端口的带宽被使用的比例,限制出口流量大小以避免网络过载。
在实现本发明过程中,本发明人发现现有技术至少存在如下问题:
使用这类静态的策略(如限制带宽使用比例不超过某个最大值)将无法适应网络模态动态变化的情况。而实际网络中,很有可能因业务变化而导致个别模态流量变大,此时原来的静态策略则不再适用。
发明内容
本申请实施例的目的是提供强化学习智能体训练方法、模态带宽资源调度方法及装置,以解决相关技术中存在的多模态网络中的模态资源无法智慧管控的技术问题。
根据本申请实施例的第一方面,提供一种多模态网络中的模态带宽资源调度方法,包括:
S11:构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
S12:设置一轮训练的最大步数;
S13:在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
S14:根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
S15:将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
S16:重复步骤S13-S15,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
进一步地,所述全局网络特征状态包括各个模态的报文数量、各个模态的平均报文大小、每条流的平均时延、每条流中的数据包数量、每条流的大小、每条流中的平均数据包大小。
进一步地,所述动作为在对应的全局网络特征状态下选择的动作向量的均值与噪声的和。
进一步地,根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数,包括:
将所述经验池中所有的执行动作前的状态输入所述动作评价网络中,得到对应的期望价值;
根据所述期望价值和对应的奖励值以及预先设定的衰减折扣,计算每个行动作前的状态的折扣奖励;
计算所述折扣奖励与所述期望价值的差值,并根据所有差值计算均方差,将得到的均方差作为第一损失值,以更新所述动作评价网络的网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210782477.4/2.html,转载请声明来源钻瓜专利网。