[发明专利]一种基于生成对抗强化学习的无线网络资源分配方法有效

申请号：	201911347500.1	申请日：	2019-12-24
公开（公告）号：	CN111182637B	公开（公告）日：	2022-06-21
发明（设计）人：	李荣鹏;华郁秀;马琳;张宏纲	申请（专利权）人：	浙江大学
主分类号：	H04W72/04	分类号：	H04W72/04;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	邱启旺
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于生成对抗强化学习无线网络资源分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于生成对抗强化学习的无线网络资源分配方法，属于无线资源分配以及强化学习领域。该方法包括：生成器网络G和鉴别器网络D的初始化，执行资源分配，训练生成器网络G和鉴别器网络D的权重，最后实现无线网络资源分配。本发明得到的资源分配策略相较于基于DQN的资源分配方法以及平均分配资源的方法，能得到更高的系统回报值，即更高的频谱效率和更好的用户体验。

技术领域

本发明涉及无线网络资源分配以及强化学习领域，更具体地，涉及一种基于生成对抗强化学习的无线网络资源分配方法。

背景技术

5G网络将支持大量来自垂直行业的多样化业务场景，例如智能安防、高清视频、远程医疗、智能家居、自动驾驶和增强现实等，这些业务场景通常具有不同的通信需求，比如增强现实技术需要更低的时延，自动驾驶技术需要网络提供更高的可靠性。然而，传统移动网络主要被设计用来服务单一的移动宽带业务，无法适应未来5G多样化的业务场景。如果为每种业务场景都建设一个专有的物理网络必然会导致网络运维复杂、成本昂贵以及可扩展性差等问题。

为了解决上述问题，网络切片技术应运而生。具体地，在一个共同的物理网络上，网络和计算等资源可以被划分成多个切片以满足不同的需求。这使得网络租户可以根据特定的要求来编排和配置不同的网络切片实例，从而有效地降低成本，提高网络的灵活性。

为了提供性能更好，成本更低的服务，无线接入网(Radio Access Network，RAN)切片在实现对现有切片上的资源进行实时管理方面面临一些具有挑战性的技术问题：(a)对于RAN，频谱是一种稀缺资源，因此保证频谱效率(Spectrum Efficiency，SE)至关重要；(b)切片租户的服务水平协议(Service Level Agreement，SLA)通常对用户的体验质量(Quality of Experience，QoE)提出严格要求；(c)每个切片的实际资源需求很大程度上取决于用户的请求模式。

传统的专用资源分配无法同时解决这些问题。因此，有必要根据用户的服务请求动态地智能地将频谱资源分配给不同切片，以便在获得令人满意的QoE的同时保持较高的SE。

另一方面，强化学习是一种致力于寻求最优决策的机器学习方法，主体感知环境状中的状态信息，搜索可以产生最大累计回报(这种累计回报也被称为动作值)的动作，执行该动作从而引起状态的改变并得到一个即时回报值，更新对累计回报的估计(动作值函数)，完成一次学习过程，进入下一轮的学习训练，重复循环迭代，直到满足学习终止条件。

然而传统的基于动作值学习的方法(如深度Q网络)难以应付环境中存在的干扰和即时回报的不确定性，因此人们引入了分布强化学习，其主要变化在于直接对动作值分布进行估计，而不像传统方法那样估计动作值的期望。

生成对抗网络最先被用来生成能够以假乱真的图像，后来逐渐被很多领域用作数据生成的工具。生成对抗网络由两个神经网络组成，分别是生成网络和判别网络。以生成图像为例，生成网络负责将从高斯白噪声中采样得到的数据映射到真实图像的空间，得到生成出来的“假”的图像；然后“假”图像和真实图像会被打乱输入判别网络，判别网络输出所给图像是真实图像的概率。生成网络的目标是产生尽可能逼真的图像，以迷惑判别网络；判别网络的目标是尽可能准确地区分“假”图像和真实图像。两个神经网络交替训练，最终会达到纳什均衡，在这个平衡点上，生成网络产生的图像和真实图像已不能被判别网络区分。

发明内容

针对现有技术存在的问题，本发明提出了一种基于生成对抗强化学习的无线网络资源分配方法。相较于传统的专用资源分配方法，本发明提出的方法更加的高效灵活；对比其他基于强化学习的方法，本发明提出的方法能够减少通信环境中的干扰因素和即时回报的不确定性带来的负面影响。因此，采用生成对抗强化学习算法进行无线网络资源分配，可大幅提高无线网络性能。

为了实现上述目的，本发明采用如下技术方案：一种基于生成对抗强化学习的无线网络资源分配方法，该方法具有以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911347500.1/2.html，转载请声明来源钻瓜专利网。

上一篇：基于层次序列标注的古代医案处方抽取方法
下一篇：一种应用开发的方法和装置

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W72-00 本地资源管理，例如，无线资源的选择或分配或无线业务量调度
H04W72-02 .通过用户或终端选择无线资源
H04W72-04 .无线资源分配
H04W72-12 .无线业务量调度
H04W72-14 ..使用授权的信道
H04W72-06 ..基于无线资源的等级标准

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于生成对抗强化学习的无线网络资源分配方法有效

专利文献下载