[发明专利]一种基于拆分动作空间的深度强化学习斗地主游戏方法在审

申请号：	202210322815.6	申请日：	2022-03-30
公开（公告）号：	CN114841311A	公开（公告）日：	2022-08-02
发明（设计）人：	孔燕;芮烨锋	申请（专利权）人：	南京信息工程大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;A63F1/00
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	曹坤
地址：	210044 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于拆分动作空间深度强化学习地主游戏方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于拆分动作空间的深度强化学习斗地主游戏方法。涉及游戏人工智能技术领域与深度强化学习领域。对斗地主游戏动作空间按照主牌和副牌拆分为主牌动作空间和副牌动作空间；对样本数据进行编码和预处理；再构建主牌DQN网络，预训练主牌奖励函数来更新样本中的奖励值，将新的样本输入主牌DQN网络进行训练；构建副牌DQN网络，设计副牌奖励函数、更新样本中奖励值并放入副牌DQN网络训练；以单一DQN网络的智能体作为比较对象，以游戏胜率作为比较标准，比较主副牌DQN和单一DQN的表现，并进行可视化展示。本发明能够有效解决斗地主游戏中强化学习面临的动作空间巨大和奖励稀疏的问题，提升了智能体在游戏中的表现。

技术领域

本发明属于计算机技术应用领域，涉及应用于游戏领域的人工智能技术，主要包括深度强化学习和深度学习，具体是涉及一种基于拆分动作空间的深度强化学习斗地主游戏方法。

背景技术

近些年，人工智能技术被广泛运用于人们生活的各个领域之中。随着AlphaGo在围棋领域带来的卓越成就，强化学习渐渐地在游戏领域崭露头角。其中，基于时序差分的强化学习方法是对状态或状态动作价值的估计进而指导智能体使其按照一定的策略选择动作，以达到较好的结果。然而，强化学习被运用到斗地主游戏中面临着动作空间巨大和奖励稀疏的问题。一方面，斗地主游戏的动作空间是根据游戏规则对牌进行组合进而构成的，动作空间总量高达两万多。由于动作都是牌的组合，所以拆分组合元素会大幅度降低动作空间。另一方面，斗地主游戏是典型的稀疏奖励环境，游戏期间，环境并不会返回有效的即时奖励信息，所以设计奖励机制能有效解决奖励稀疏的问题，促进网络训练。

发明内容

发明目的：本发明所要解决的技术问题是克服强化学习运用于斗地主游戏时动作空间巨大和奖励稀疏的问题，本发明根据斗地主游戏规则将动作空间分为主牌和副牌两个部分并为这两个部分构建奖励机制，形成主副牌DQN结构。本发明能够有效解决动作空间巨大和奖励稀疏的问题，进而提升斗地主游戏中智能体的智能性，提升游戏胜率。

技术方案：本发明所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法，具体操作步骤如下：

(1)、对斗地主游戏空间进行拆分；

(2)、对样本数据进行编码；

(3)、构建主牌DQN网络，定义主牌奖励函数；

(4)、构建副牌DQN网络，定义副牌奖励函数；

(5)、训练未进行动作空间拆分和奖励函数设计的DQN网络，确保该DQN网络的结构和设置于主牌DQN和副牌DQN一致；

(6)、将主副牌DQN智能体和单一DQN智能体置于地主、下家农民和上家农民的位置上与随机策略玩家进行模拟游戏，以胜率作为标准进行比较，将比较数据进行可视化展示。

进一步的，在所述步骤(1)中，对斗地主游戏空间进行拆分具体是：

(1.1)、根据斗地主游戏规则，区分一个出牌为主牌和副牌两部分；

(1.2)、遍历斗地主游戏所有的出牌可能性，拆分成主牌和副牌，进而构建主牌动作空间和副牌动作空间。

进一步的，在所述步骤(2)中，对样本数据进行编码具体是：

使用一个5*15的矩阵对牌信息进行编码表示，列表示牌的点数，从3到大王；行表示数量，从0到4；