[发明专利]一种无线终端直连通信资源分配方法及装置在审
| 申请号: | 201811136155.2 | 申请日: | 2018-09-28 |
| 公开(公告)号: | CN109219025A | 公开(公告)日: | 2019-01-15 |
| 发明(设计)人: | 魏翼飞;赵敏;宋梅;张勇;滕颖蕾;满毅;郭达;王小娟 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | H04W4/70 | 分类号: | H04W4/70;H04W72/12;H04W72/04 |
| 代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 陈宙;于晓霞 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 博弈 无线终端 非合作 智能体 直连 算法 通信资源分配 无线信道状态 多用户系统 系统吞吐量 可用性 不确定性 多智能体 蜂窝网络 决策问题 能量管理 信道状态 状态转移 资源分配 资源块 最大化 最优化 决策 分配 观察 制定 学习 | ||
1.无线终端直连用户对(D2D)可以被视为一个独立的智能体,根据它在本地观察到的信道状态做出决策;为了解决多用户系统中的顺序决策问题,提出了多智能体RL算法;假设D2D用户没有关于要分配的资源块的可用性和质量的任何信息,该问题被模拟为随机非合作博弈;因此,每个智能体都成为非合作博弈中的一名参与者,所有参与者都一起做出决策,以实现全体的效益最优化。
2.如权利要求1所述的方法,其特征在于,所述实施例采用在增强学习中的多智能体Q学习算法,其基本要素包括:智能体、状态、动作、奖励信号以及策略。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:针对所确定的每个智能体,根据其执行当次动作产生的反馈结果以及下一状态进行下一动作的选择,每个智能体进行决策之后都成为非合作博弈中的博弈参与者,共同进行决策。
4.如权利要求2所述的方法,其特征在于,所述确定每个D2D用户对为增强学习中的一个智能体。
5.如权利要求2所述的方法,其特征在于,所述确定系统总吞吐量为增强学习中的奖励信号。
6.如权利要求2所述的方法,其特征在于每个智能体进行增强学习采用的是Q学习算法,在该算法中,智能体在探索和经验中保持平衡,每次迭代都沿当前Q值最高的路径前进。
7.如权利要求3所述的方法,影响当前智能体决策的状态包括:
D2D用户对的服务通信质量是否得到满足;
蜂窝用户(即主用户)的服务通信质量是否得到满足。
8.如权利要求3所述的方法,智能体在增强学习中所执行的动作为选择与主用户复用的资源块。
9.如权利要求3所述的方法,在多用户的系统中进行增强学习即为多用户增强学习方法,多用户共同决策时,假设D2D对没有关于要分配的资源块的可用性和质量的任何信息,则该问题可以被模拟为随机非合作博弈;每个智能体都成为非合作博弈中的一名参与者,所有参与者都一起做出决策。
10.如权利要求9所述的方法,多智能体间进行非合作博弈时以达到纳什均衡为目标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811136155.2/1.html,转载请声明来源钻瓜专利网。





