[发明专利]基于深度双重强化学习的云游戏场景智能调度方法及系统在审
申请号: | 202310341729.4 | 申请日: | 2023-03-31 |
公开(公告)号: | CN116360946A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 李星星;张青青;李沅泽;王晓飞 | 申请(专利权)人: | 派欧云计算(上海)有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/455;G06F9/50;G06N3/092 |
代理公司: | 深圳众邦专利代理有限公司 44545 | 代理人: | 丁曹凯 |
地址: | 201203 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 双重 强化 学习 云游 戏场 智能 调度 方法 系统 | ||
1.一种基于深度双重强化学习的云游戏场景智能调度方法,其特征在于,包括如下步骤:
S1,收集云游戏执行时边缘云平台上的任务数据和硬件数据;
S2,以满足服务质量和边缘云成本最小化为目标构建激励函数,并将云游戏的任务调度决策过程构建为马尔可夫决策过程;
S3,以最大化所有任务的激励函数为目标利用DDQN算法对步骤S2所建立的马尔科夫决策过程进行求解,获取最优化的任务调度决策。
2.根据权利要求1所述的基于深度双重强化学习的云游戏场景智能调度方法,其特征在于,所述任务数据包括任务开始时间、任务结束时间、带宽占用率、最低CPU要求、最低GPU要求、帧率要求、延迟要求、所需内存空间、所需磁盘空间;所述硬件数据包括CPU配置、磁盘类型、历史带宽平均利用率、压测带宽、压测磁盘IOPS、NAT类型、历史丢包率、历史TCP重传率、GPU型号、张量核心数量。
3.根据权利要求1所述的基于深度双重强化学习的云游戏场景智能调度方法,其特征在于,在步骤S2中,所述激励函数的公式为:
式中,表示任务n在边缘云平台m上的性能表现,表示任务n在边缘云平台m上的基础设施成本,α为常数,表示为满足任务n的服务质量而设定的约束激励,Gn表示任务n的任务调度决策所对应的激励函数。
4.根据权利要求3所述的基于深度双重强化学习的云游戏场景智能调度方法,其特征在于,所述任务n在边缘云平台m上的性能表现的计算公式为:
式中,表示任务n在边缘云平台m上的帧率表现,表示任务n在边缘云平台m上的延迟表现,和均为常数。
5.根据权利要求3所述的基于深度双重强化学习的云游戏场景智能调度方法,其特征在于,所述任务n在设备m上的基础设施成本的计算公式为:
式中,Km表示边缘云平台m的硬件成本,表示任务n占用边缘云平台m硬件资源的比例,fm(·)表示边缘云平台m为处理任务而虚拟化实例所带来的性能损失。
6.根据权利要求3所述的基于深度双重强化学习的云游戏场景智能调度方法,其特征在于,所述约束激励的计算公式为:
式中,Γn表示任务性能表现违反任务n的相关约束带来的损失,Λm表示任务调度导致超出边缘云平台m的负载能力或设备使用率过低带来的损失。
7.根据权利要求1所述的基于深度双重强化学习的云游戏场景智能调度方法,其特征在于,所述马尔可夫决策过程的状态包括任务带宽占用、最低内存占用、最低CPU占用、最低GPU占用、帧率要求、延迟要求、CPU算力上限、GPU算力上限、GPU虚拟化资源、带宽上限、内存上限、CPU当前占用、GPU当前占用、带宽当前占用、内存当前占用;动作采用a表示,a={m,s,r},m表示所选择的边缘云平台,s表示占用边缘云平台的GPU的比例,r表示增加边缘云平台或下架已有边缘云平台。
8.一种基于深度双重强化学习的云游戏场景智能调度系统,其特征在于,包括:
数据采集单元:用于收集云游戏运行时边缘云平台上的任务数据和硬件数据;
激励函数构建单元:用于以满足服务质量和边缘云成本最小化为目标构建激励函数,并将激励函数发送到任务调度决策生成单元;
任务调度决策生成单元:用于将云游戏的任务调度决策过程构建为马尔可夫决策过程,并以最大化所有任务的激励函数为目标利用DDQN算法对马尔科夫决策过程进行求解,获取最优化的任务调度决策。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于派欧云计算(上海)有限公司,未经派欧云计算(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310341729.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:模型性能信息生成方法、装置及电子设备
- 下一篇:耐磨损皮带输送机组