[发明专利]强化学习智能体训练方法、模态带宽资源调度方法及装置有效

申请号：	202210782477.4	申请日：	2022-07-05
公开（公告）号：	CN114866494B	公开（公告）日：	2022-09-20
发明（设计）人：	沈丛麒;张慧峰;姚少峰;徐琪;邹涛;张汝云	申请（专利权）人：	之江实验室
主分类号：	H04L47/70	分类号：	H04L47/70;H04L47/12;H04L49/50;G06N3/04;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	邱启旺
地址：	310023 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习智能训练方法带宽资源调度装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了强化学习智能体训练方法、模态带宽资源调度方法及装置，其中强化学习智能体训练方法在多模态网络下，利用强化学习智能体与网络环境不断交互，获取最新全局网络特征并输出更新后的动作。通过调节模态所占用的带宽，设定奖励值为智能体确定优化目标，实现模态的调度，保障多模态网络资源合理使用。训练后的强化学习智能体应用于模态带宽资源调度方法中，能自适应于不同特征的网络中，可用于多模态网络的智慧管控，具有良好的适应性及调度性能。

技术领域

本发明属于网络管控技术领域，尤其涉及强化学习智能体训练方法、模态带宽资源调度方法及装置。

背景技术

在多模态网络中，同时运行着多种网络技术体制，每一种技术体制即为一种网络模态。各网络模态共享网络资源，如不加以管控，则会导致各网络模态直接竞争网络资源，如带宽等，这会直接影响部分关键模态的通信传输质量。因此，对网络中的各个模态进行合理管控是保障多模态网络稳定运行的必要前提之一。

对于上述需要，目前主流技术是控制交换机端口的带宽被使用的比例，限制出口流量大小以避免网络过载。

在实现本发明过程中，本发明人发现现有技术至少存在如下问题：

使用这类静态的策略（如限制带宽使用比例不超过某个最大值）将无法适应网络模态动态变化的情况。而实际网络中，很有可能因业务变化而导致个别模态流量变大，此时原来的静态策略则不再适用。

发明内容

本申请实施例的目的是提供强化学习智能体训练方法、模态带宽资源调度方法及装置，以解决相关技术中存在的多模态网络中的模态资源无法智慧管控的技术问题。

根据本申请实施例的第一方面，提供一种多模态网络中的模态带宽资源调度方法，包括：

S11：构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型，其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络：

S12：设置一轮训练的最大步数；