[发明专利]移动网络自优化方法、系统、终端及计算机可读存储介质有效
| 申请号: | 201811192207.8 | 申请日: | 2018-10-12 |
| 公开(公告)号: | CN111050330B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 杨治国 | 申请(专利权)人: | 中兴通讯股份有限公司 |
| 主分类号: | H04W16/18 | 分类号: | H04W16/18;H04W24/02;H04W72/53 |
| 代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 姜春咸;冯建基 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 移动 网络 优化 方法 系统 终端 计算机 可读 存储 介质 | ||
1.一种移动网络自优化方法,其特征在于,包括:
获取移动网络中小区智能体的环境状态观测值;
将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor,获取与所述环境状态观测值对应的网络配置策略;
根据所述网络配置策略生成相应的控制指令,将所述控制指令下发至对应的小区,指示所述小区根据所述网络配置策略进行网络参数配置;
所述获取移动网络中小区智能体的环境状态观测值之前还包括:
获取所述小区智能体网络配置策略的初始样本数据,将所述初始样本数据存储至样本池;
对所述初始样本数据进行归一化处理,形成表征所述小区智能体各优化目标网络配置策略的样本数据;其中,所述样本数据的格式为(St,Rt,St+1,At),其中St表示t时刻归一化之后某指标的状态向量,At表示在状态St下所执行的动作向量,St+1表示在状态St下执行动作At转移到的下一个时刻的状态向量,Rt表示在状态St下执行动作At转移到St+1所产生的收益值;
周期性的从所述样本池中取得样本数据(St,Rt,St+1,At),将St+1输入到目标网络配置策略模型Actor-target输出估计动作At+1;
将(St+1,At+1)输入到目标评价网络模型Critic-target,输出状态-动作(St+1,At+1)对应的目标评价值Q(St+1,At+1);
将样本数据中已经发生的(St,At)输入到现实评价模型Critic,获取状态-动作(St,At)对应的现实评价值
根据公式Q(St,At)=Rt+γ*Q(St+1,At+1)计算得到状态-动作(St,At)对应的目标评价值Q(St,At),其中,γ为预设权重;
通过最小化来优化模型Critic,根据优化后的模型Critic更新模型Critic-target,其中Loss为损失函数;
将状态St输入到所述模型Actor中,输出当前策略下的动作At',将状态-动作(St,At')输入到所述模型Critic,得到对应的评价输出Q(St,At');
根据策略梯度公式,将最小化Q(St,At')作为所述模型Actor的损失函数对所述模型Actor进行优化。
2.如权利要求1所述的移动网络自优化方法,其特征在于,所述根据所述网络配置策略生成相应的控制指令,将所述控制指令下发至对应的小区,指示所述小区根据所述网络配置策略进行网络参数配置之后还包括:
根据所述环境状态观测值和所述网络配置策略生成新的样本数据,将所述新的样本数据存储至样本池,供强化训练学习优化模型Actor使用。
3.如权利要求1所述的移动网络自优化方法,其特征在于,所述获取所述小区智能体网络配置策略的初始样本数据,将所述初始样本数据存储至所述样本池之后包括:
记录所述小区智能体的历史环境状态信息,采用长短期记忆网络LSTM算法预测的未来值作为所述小区智能体环境状态的补充特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811192207.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种滚筒洗衣机
- 下一篇:一种轻量化高强度双相钢配方及其镀锌生产工艺





