[发明专利]一种基于强化学习的多通道数据转发决策方法在审
申请号: | 202011133763.5 | 申请日: | 2020-10-21 |
公开(公告)号: | CN112260953A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 王媛娣;周舟;张帅;方顺建 | 申请(专利权)人: | 中电积至(海南)信息技术有限公司;中国科学院信息工程研究所 |
主分类号: | H04L12/751 | 分类号: | H04L12/751;H04L12/721 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 陈万江 |
地址: | 571924 海南省老城高新技*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 通道 数据 转发 决策 方法 | ||
1.一种基于强化学习的多通道数据转发决策方法,其特征在于,包括以下步骤:
S1、系统部署:首先进行系统部署,系统部署包括用户侧接入模块、出口路由信息收集模块和多通道路由管理中心;
S2、网络拓扑构建:基于用户所在网络的路由拓扑结构构造网络拓扑图,对于用户侧多通道场景,建模用户节点,并将用户节点与各自可选取的出口通道节点进行连接;
S3、信息收集及模型训练:信息收集及模型训练的信息主要用于深度强化学习模型的环境状态信息,及奖励机制;
S4、多通道决策执行:将收集到的各类信息输入到模型中,得到决策方案,用户选取哪个通道进行流量转发,并在用户侧接入模块进行执行即可。
2.根据权利要求1所述的一种基于强化学习的多通道数据转发决策方法,其特征在于:所述S1中的用户侧接入模块采用分布式的部署架构,由部署在靠近用户侧的数据转发服务器组成,用于获取用户流量信息、数据多通道路由决策执行。
3.根据权利要求1所述的一种基于强化学习的多通道数据转发决策方法,其特征在于:所述S1中的出口路由信息收集模块主要收集某一子网出口路由的带宽信息。
4.根据权利要求1所述的一种基于强化学习的多通道数据转发决策方法,其特征在于:所述S1中的多通道路由管理中心将从前述两模块中获取到的信息输入深度强化学习模型中,得到决策结果,并将结果返回给用户侧接入模块。
5.根据权利要求1所述的一种基于强化学习的多通道数据转发决策方法,其特征在于:所述S2中将用户节点看作是智能体,选取哪条通道看作其动作,通道选取决策,执行于用户节点智能体。
6.根据权利要求1所述的一种基于强化学习的多通道数据转发决策方法,其特征在于:所述S3中环境状态信息包括:用户优先级信息、用户流量数据的类型、目标IP地址,收集这些信息目的是为不同用户、不同服务类型的流量数据进行个性化通道选择。
7.根据权利要求1所述的一种基于强化学习的多通道数据转发决策方法,其特征在于:所述S3中奖励机制的目的是使得制定的策略能最大化提升用户体验,包含以下指标:局部指标和全局指标,利用收集到的信息进行模型训练,得到最优模型参数。
8.根据权利要求7所述的一种基于强化学习的多通道数据转发决策方法,其特征在于:所述局部指标包括:通道的可达性、时延等,用于衡量用户通信质量,所述全局指标包括子网出口路由带宽,用于衡量子网的网络负载情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电积至(海南)信息技术有限公司;中国科学院信息工程研究所,未经中电积至(海南)信息技术有限公司;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011133763.5/1.html,转载请声明来源钻瓜专利网。