[发明专利]强化学习智能体训练方法、模态带宽资源调度方法及装置有效
申请号: | 202210782477.4 | 申请日: | 2022-07-05 |
公开(公告)号: | CN114866494B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 沈丛麒;张慧峰;姚少峰;徐琪;邹涛;张汝云 | 申请(专利权)人: | 之江实验室 |
主分类号: | H04L47/70 | 分类号: | H04L47/70;H04L47/12;H04L49/50;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化 学习 智能 训练 方法 带宽 资源 调度 装置 | ||
1.一种多模态网络中的强化学习智能体训练方法,其特征在于,应用于强化学习智能体,包括:
S11:构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
S12:设置一轮训练的最大步数;
S13:在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
S14:根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
S15:将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
S16:重复步骤S13-S15,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
2.根据权利要求1所述的方法,其特征在于,所述全局网络特征状态包括各个模态的报文数量、各个模态的平均报文大小、每条流的平均时延、每条流中的数据包数量、每条流的大小、每条流中的平均数据包大小。
3.根据权利要求1所述的方法,其特征在于,所述动作为在对应的全局网络特征状态下选择的动作向量的均值与噪声的和。
4.根据权利要求1所述的方法,其特征在于,根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数,包括:
将所述经验池中所有的执行动作前的状态输入所述动作评价网络中,得到对应的期望价值;
根据所述期望价值和对应的奖励值以及预先设定的衰减折扣,计算每个行动作前的状态的折扣奖励;
计算所述折扣奖励与所述期望价值的差值,并根据所有差值计算均方差,将得到的均方差作为第一损失值,以更新所述动作评价网络的网络参数。
5.根据权利要求4所述的方法,其特征在于,根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数,包括:
将所述经验池中所有的执行动作前的状态分别输入所述执行旧网络和执行新网络,得到执行动作旧分布和执行动作新分布;
计算所述经验池中每个动作在对应的所述执行动作旧分布和执行动作新分布中分别出现的第一概率和第二概率;
计算所述第二概率与所述第一概率的比值;
将所有的所述比值乘以对应的所述差值并求平均之后的值作为第二损失值,以更新所述执行新网络的网络参数。
6.一种多模态网络中的强化学习智能体训练装置,其特征在于,应用于强化学习智能体,包括:
构建模块,用于构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型,其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络:
设置模块,用于设置一轮训练的最大步数;
执行模块,用于在每一步中,获取全局网络特征状态,将所述全局网络特征状态输入所述执行新网络,控制SDN交换机执行所述执行新网络输出的动作,获取所述SDN交换机执行所述动作后网络的状态和奖励值,将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池;
第一更新模块,用于根据所述经验池中所有的奖励值和执行动作前的状态,更新所述动作评价网络的网络参数;
第二更新模块,用于将所述执行新网络的网络参数赋值给所述执行旧网络,并根据所述经验池中所有的动作和执行动作前的状态,更新所述执行新网络的网络参数;
重复模块,用于重复执行模块到第二更新模块中的过程,直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210782477.4/1.html,转载请声明来源钻瓜专利网。