[发明专利]一种分域星上路由决策与波长分配优化方法在审
申请号: | 202211728694.1 | 申请日: | 2022-12-30 |
公开(公告)号: | CN116232425A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 张琦;李元锋;陈东;姚海鹏;钱晋希;刘亮;陶滢;田凤;田清华;王富;柴芙蓉;孙梦;陶宇航 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04B7/185 | 分类号: | H04B7/185 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分域星上 路由 决策 波长 分配 优化 方法 | ||
1.一种分域星上路由决策与波长分配优化方法,其特征在于,该方法包括如下步骤:
第一步:将整个低轨卫星星座按曼哈顿街区网络划分为若干个域,每个域布置一个软件定义网控制器,作为该域的路由域波长分配决策控制器;当一个业务到来时,所属域将会根据业务的源节点和目的节点的路由器地址进行纯分布式的域内路由或跨域路由决策,在每个域内的控制器储存了该域内每对节点之间路由路径与波长若干种预方案;
第二步:每个域的软件定义网控制器采用基于独立分层多智能体深度强化学习的路由决策优化;其特征在于,提出了分层路由决策架构;将每个域的软件定义网控制器拆分为两个不同的模块,其分别为域内路由控制器和域内路由控制器;域内路由控制器仅负责对于域内路由业务的优化,对于跨域路由业务,则需要域间路由控制器;跨域路由控制器负责对于跨域路由业务的优化,它本身并不直接负责路由决策的发出,而是为域内路由控制器指定跨域路由链路(即一个边缘域内目的节点),将路由业务传送至邻接域;
所述基于独立分层多智能体深度强化学习的路由决策,实施于低轨卫星星座的每个域内,其每个域内的工作原理包括,将低轨卫星路由决策任务抽象为马尔可夫决策过程,即状态-动作-环境变化-奖励反馈的马尔可夫链;首先域内路由控制器观察出所属域内的网络状态;其网络状态S(B,D,λ,P)包含所属域内的所有链路的链路距离D、剩余波长容量B、多普勒频移λ、路由占用标记为P;域间路由控制器观察所属域的域间链路网络状态和域内链路的负载模糊分布Sc(Bd,B,D,λ,P,R),Bd代表将域内卫星网络划分为几个大域后每个域内的综合资源分布;B代表跨域链路的波长资源分布;D代表跨域链路的链路距离分布;λ代表跨域链路的多普勒频移分布;P代表跨域链路的信息素浓度分布,代表相邻域的跨域链路质量,作为相邻域R代表待标记的路由表标记位;当一个路由业务到来时,控制器将首先判断是否为跨域路由业务,当判断为域内路由业务,则只有域内路由控制器负责路由决策输出;首先域内路由控制器通过观察域内网络状态;将几条备选的路由方案在网络观察状态的路由占用标记位进行标记,并将每个标记好的备选路由方案输入值图神经网络中,根据式(1)图神经网络的输出值为不同路由路径的评分;
域内路由控制器根据贪婪公式,选择当前评分最高的路由路径作为路由策略进行输出;低轨卫星网络根据策略进行路由转发,采用首次匹配法分配波长,并根据实际转发情况对域内路由控制器反馈奖励值R,如式(2)所示,为所选路径的最小剩余波长资源与域中最大波长资源的比值;
当判断为跨域路由业务时,分别由域内路由控制器和跨域路由控制器对域内链路和跨域链路进行网络状态获取并观察,首先,由跨域路由控制器根据路由业务的目的节点,读取跨域路由表,将跨域链路符合跨域路由表的链路在R位置进行标记,跨域控制器根据公式(1)计算每个跨域链路的动作状态价值,并输出动作价值最高的链路作为跨域链路的选择,在跨域控制器输出跨域路由决策后环境不会立刻反馈给跨域路由控制器奖励值和后续网络状态,而是先将跨域路由决策交给域内路由控制器,根据跨域路由控制器输出的域内边缘卫星网络节点,作为域内路由的子目的节点,生成一条域内路由;在跨域路由控制器和域内路由控制器都输出各自的路由决策后,将联合路由决策交给卫星互联网;卫星互联网根据路由决策对路由业务进行跨域转发,并根据路由转发,采用首次匹配法分配波长结果;其跨域奖励为Rc,如式(3)所示:
其跨域奖励不光和跨域路由决策本身有关,也与在跨域路由决策后,域内路由决策质量有关;
第三步:在每次跨域路由进行决策并转发后,需要根据路由转发,采用首次匹配法分配波长情况更新跨域链路信息素;考虑到卫星网络控制的可伸缩性(控制架构可以适应足够大的卫星星座),采用扁平式SDN部署架构,每个SDN控制器只可观测本域的链路状态,SDN控制器只与相邻的控制器通过异步通信共同维护其共同所属的跨域链路信息素分布;在本专利中,跨域链路的信息素代表了若干种会影响路由成功率的网络因素的函数计算(链路负载、链路是否连通、链路多普勒频移);信息素机制:在网络中,仅仅在跨域链路上分布信息素(信息素指导相邻SDN控制器选择质量更高的跨域链路作为路由链路),控制器会在一定的时间间隔内更新所属跨域链路的信息素分布;信息素更新规则:1、在每一个更新间隔内,如果一个跨域链路相邻的链路存在链路断开、多普勒频移超过阈值该跨域链路会增加定量信息素;2、在每一个更新间隔内,如果有路由经过一个域,则域内所有的跨与链路增加定量的信息素;3、在每一个更新间隔内,如果有路由经过一个域,所经过的跨域链路会额外增加定量信息素;4、每一个时间间隔后,所有跨域链路成比例进行信息素蒸发,避免信息素无限累积;跨域链路信息素越少,链路质量可能越高;5、路由失败后在选择的跨域链路信息素增加。
第四步,重复第二和第三步,对跨域路由控制器和域内路由控制器进行训练,使其奖励曲线训练到收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211728694.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防粘热再生干燥筒
- 下一篇:一种等离子发生器及等离子空气净化装置