[发明专利]一种无线资源分配联合优化方法及装置有效
申请号: | 202011248200.0 | 申请日: | 2020-11-10 |
公开(公告)号: | CN112566253B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 张海君;卢同威;隆克平 | 申请(专利权)人: | 北京科技大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;H04W72/08;H04B7/0413;H04B7/06;H04B17/336;H04B17/345;H04B17/382;H04B17/391 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;付忠林 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无线 资源 分配 联合 优化 方法 装置 | ||
1.一种无线资源分配联合优化方法,用于多用户多输入多输出MIMO网络架构,其特征在于,所述无线资源分配联合优化方法包括:
对待资源分配优化的MIMO网络架构的应用场景进行建模,得到对应MIMO网络架构的信道模型;其中,在所述MIMO网络架构中,用户对之间采用NOMA通信技术,在发射端采用迫零波束赋形技术对发射信号进行编码;在接收端采用串行干扰消除技术进行信号解调;
基于所述信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配;其中,深度强化学习的目标是在保证网络架构内第一组用户的最低目标数据速率时,最大化第二组用户的和速率;
所述对待资源分配优化的MIMO网络架构的应用场景进行建模,包括:
对待资源分配优化的MIMO网络架构的用户设备及信道状态资源建模为有限状态马尔可夫模型;其中,所述MIMO网络架构为一离散时隙系统,在同一时刻内,系统状态不发生变化,下一时刻系统状态依据状态转移概率进行转换;
所述深度强化学习网络为双重深度Q网络,所述双重深度Q网络包括主网络和目标网络两个神经网络,两个神经网络的结构相同,参数不同;
所述基于所述信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配,包括:
S1,初始化系统的状态空间、动作空间以及深度强化学习网络参数;
S2,将当前状态输入到深度强化学习网络的主网络中,输出每个动作对应的状态作用值Q,进行比较,选取最大Q值对应的动作作为当前状态的动作;
S3,根据与环境进行交互,获得即时奖励和系统中所处的下一状态,并将其存储到经验池中;
S4,判断所述经验池中存储的经验数量是否达到预设数量要求,若达到预设数量要求,则执行S5进行深度强化学习;
S5,根据贝尔曼方程获得即时奖励,进行学习,在学习的过程中目标是最大化长期奖励函数,以保证系统内的簇间功率及簇内功率分配最优;
S6,当长期奖励函数维持在一定的范围内不再上升时,终止进程。
2.如权利要求1所述的无线资源分配联合优化方法,其特征在于,所述S3中获得即时奖励,包括:
当满足预设约束条件时,根据环境获得即时奖励,即时奖励的表达式为:
其中,m表示第m个用户对,rm为第m个用户对中第一组用户的速率回报;
所述预设约束条件包括:用户对中第二组的用户是否达到最小目标速率;用户对中第一组的用户是否满足解码条件;所有用户功率和小于最大功率Pmax。
3.如权利要求2所述的无线资源分配联合优化方法,其特征在于,所述用户对中第二组的用户是否达到最小目标速率的表达式为:
其中,表示第一组用户的解码所需信噪比;R0表示用户对中第二组用户的最小目标速率。
4.如权利要求3所述的无线资源分配联合优化方法,其特征在于,所述用户对中第一组的用户是否满足解码条件的表达式为:
其中,表示第二组用户的解码所需信噪比。
5.如权利要求1所述的无线资源分配联合优化方法,其特征在于,在所述S1中,以正态分布初始化深度强化学习网络的权重参数。
6.一种无线资源分配联合优化装置,用于多用户多输入多输出MIMO网络架构,其特征在于,所述无线资源分配联合优化装置包括:
建模模块,用于对待资源分配优化的MIMO网络架构的应用场景进行建模,得到对应MIMO网络架构的信道模型;其中,在MIMO网络架构中,用户对之间采用NOMA通信技术,在发射端采用迫零波束赋形技术对发射信号进行编码;在接收端采用串行干扰消除技术进行信号解调;
优化模块,用于基于信道模型采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配;其中,深度强化学习的目标是在保证网络架构内第一组用户的最低目标数据速率时,最大化第二组用户的和速率;
所述对待资源分配优化的MIMO网络架构的应用场景进行建模,包括:
对待资源分配优化的MIMO网络架构的用户设备及信道状态资源建模为有限状态马尔可夫模型;其中,所述MIMO网络架构为一离散时隙系统,在同一时刻内,系统状态不发生变化,下一时刻系统状态依据状态转移概率进行转换;
所述深度强化学习网络为双重深度Q网络,所述双重深度Q网络包括主网络和目标网络两个神经网络,两个神经网络的结构相同,参数不同;
所述基于所述信道模型,采用深度强化学习网络进行学习,实现MIMO网络架构中的簇间干扰和簇内干扰的分配,包括:
S1,初始化系统的状态空间、动作空间以及深度强化学习网络参数;
S2,将当前状态输入到深度强化学习网络的主网络中,输出每个动作对应的状态作用值Q,进行比较,选取最大Q值对应的动作作为当前状态的动作;
S3,根据与环境进行交互,获得即时奖励和系统中所处的下一状态,并将其存储到经验池中;
S4,判断所述经验池中存储的经验数量是否达到预设数量要求,若达到预设数量要求,则执行S5进行深度强化学习;
S5,根据贝尔曼方程获得即时奖励,进行学习,在学习的过程中目标是最大化长期奖励函数,以保证系统内的簇间功率及簇内功率分配最优;
S6,当长期奖励函数维持在一定的范围内不再上升时,终止进程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011248200.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可更换针头的服装打孔装置
- 下一篇:一种输送夹紧装置