[发明专利]一种网络资源协同方法和装置在审
申请号: | 202110962030.0 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113840334A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 聂东旭;李景要;任洪亮;李军站 | 申请(专利权)人: | 济南浪潮数据技术有限公司 |
主分类号: | H04W28/16 | 分类号: | H04W28/16;H04W28/24;H04W28/08 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰;陈黎明 |
地址: | 250000 山东省济南市中国(山东)自由贸易*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络资源 协同 方法 装置 | ||
1.一种网络资源协同方法,其特征在于,包括执行以下步骤:
以对网络资源的终端数量、任务大小、和任务个数的操作作为动作、以网络资源的时延和功耗作为状态来初始化sarsa算法的当前Q值;
在当前状态下随机选取当前动作,并基于所述当前动作来确定下一状态;
比较所述当前状态与所述下一状态,并基于所述当前状态与所述下一状态的关系来确定当前奖励;
基于所述下一状态与下一动作来确定下一Q值,并基于所述当前奖励和所述下一Q值来更新所述当前Q值;
重复执行上述步骤直到满足结束条件,并基于所述当前Q值确定行为策略以控制网络资源。
2.根据权利要求1所述的方法,其特征在于,基于所述当前状态与所述下一状态的关系来确定当前奖励包括:响应于所述下一状态超过所述当前状态而将所述当前奖励确定为正向奖励,响应于所述下一状态不足所述当前状态而将所述当前奖励确定为反向奖励,响应于所述下一状态持平所述当前状态而将所述当前奖励确定为中性奖励。
3.根据权利要求1所述的方法,其特征在于,基于所述当前奖励和所述下一Q值来更新所述当前Q值包括:基于遗忘参数将所述下一Q值加权叠加到所述当前奖励以获得中间值,并进一步基于学习参数将所述中间值和所述当前Q值归一化来更新所述当前Q值。
4.根据权利要求1所述的方法,其特征在于,所述结束条件包括:重复执行次数达到迭代阈值、或所述当前Q值收敛。
5.根据权利要求1所述的方法,其特征在于,所述行为策略基于在所述当前状态下的多个后续状态、折扣因子、和期望回报而确定,其中所述折扣因子与所述当前奖励的权重呈正相关性。
6.一种网络资源协同装置,其特征在于,包括:
处理器;
控制器,存储有所述处理器可运行的程序代码,所述处理器在运行所述程序代码时执行以下步骤:
以对网络资源的终端数量、任务大小、和任务个数的操作作为动作、以网络资源的时延和功耗作为状态来初始化sarsa算法的当前Q值;
在当前状态下随机选取当前动作,并基于所述当前动作来确定下一状态;
比较所述当前状态与所述下一状态,并基于所述当前状态与所述下一状态的关系来确定当前奖励;
基于所述下一状态与下一动作来确定下一Q值,并基于所述当前奖励和所述下一Q值来更新所述当前Q值;
重复执行上述步骤直到满足结束条件,并基于所述当前Q值确定行为策略以控制网络资源。
7.根据权利要求6所述的装置,其特征在于,基于所述当前状态与所述下一状态的关系来确定当前奖励包括:响应于所述下一状态超过所述当前状态而将所述当前奖励确定为正向奖励,响应于所述下一状态不足所述当前状态而将所述当前奖励确定为反向奖励,响应于所述下一状态持平所述当前状态而将所述当前奖励确定为中性奖励。
8.根据权利要求6所述的装置,其特征在于,基于所述当前奖励和所述下一Q值来更新所述当前Q值包括:基于遗忘参数将所述下一Q值加权叠加到所述当前奖励以获得中间值,并进一步基于学习参数将所述中间值和所述当前Q值归一化来更新所述当前Q值。
9.根据权利要求6所述的装置,其特征在于,所述结束条件包括:重复执行次数达到迭代阈值、或所述当前Q值收敛。
10.根据权利要求6所述的装置,其特征在于,所述行为策略基于在所述当前状态下的多个后续状态、折扣因子、和期望回报而确定,其中所述折扣因子与所述当前奖励的权重呈正相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮数据技术有限公司,未经济南浪潮数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110962030.0/1.html,转载请声明来源钻瓜专利网。