[发明专利]基于强化学习的非完备信息博弈的模型决策方法及系统在审
申请号: | 202110899376.0 | 申请日: | 2021-08-06 |
公开(公告)号: | CN113332702A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 王嘉旸;曾旺;李一华;修文超;黄伟;熊唤亮;王命延 | 申请(专利权)人: | 中至江西智能技术有限公司 |
主分类号: | A63F9/20 | 分类号: | A63F9/20;A63F11/00;G06N20/00 |
代理公司: | 南昌旭瑞知识产权代理事务所(普通合伙) 36150 | 代理人: | 彭琰 |
地址: | 330000 江西省南*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 完备 信息 博弈 模型 决策 方法 系统 | ||
本发明提供一种基于强化学习的非完备信息博弈的模型决策方法及系统,方法包括:获取博弈模型的场面信息;根据场面信息分别获得模型中目标函数的当前更新对局轨迹的策略熵、及当前更新对局轨迹的散度项;根据当前更新对局轨迹的策略熵、及当前更新对局轨迹的散度项获得目标函数的收敛值,使得收敛值接近预设阈值;依据竞争对手当前的剩余棋牌的牌面与当前参与者当前剩余棋牌的牌面,决策出牌。上述基于强化学习的非完备信息博弈的模型决策方法及系统,通过设置目标函数,调节目标函数的收敛值使得模型快速收敛,优化非完备信息博弈的模型决策,解决了现有技术中PPO算法模型训练过程中难以收敛,性能下降及陷入局部最优的难点的技术问题。
技术领域
本发明涉及计算机技术领域,特别涉及一种基于强化学习的非完备信息博弈的模型决策方法及系统。
背景技术
对决策模型中涉及的数据进行数据处理是构建决策模型的前提,以麻将为例,麻将决策模型是先在当前麻将游戏中获取一些数据信息(包括手牌、副露、对手的副露、弃牌、庄家位置等),通过对这些数据信息进行一定的处理,进行合理的决策动作,从而追求在麻将游戏中赢取更多的分数。在麻将游戏中,决策主要包括出牌决策、吃碰杠决策以及胡牌决策。
不完备信息博弈是指任意一个参与方在做决策时不知道其他参与方的信息,即在不完备信息博弈过程中,任意一个参与方在做决策时均无法获取其他参与方的信息。PPO算法是一种基于策略的强化学习算法,在强化学习中有两个主要的组成部分,智能体和环境,智能体是指采用强化学习进行学习的事物本身,可以通过学习而自动获得有价值信息的模型,环境是指智能体所依赖并活动、交互的世界。在每一次智能体与环境交互的过程中,智能体会观察当前时刻自身在环境中所呈现的状态,或者部分状态,并以此为依据来决定自身在当前时刻所应采取的行为。同时,在每一次智能体与环境交互的过程中,智能体会从环境中接受到一个反馈信息,该反馈信息会告诉智能体,当前时刻其在环境的状态表现是有多好或者多糟糕。智能体的学习目标是为了获得最大的累计奖励。强化学习就是一种在智能体与环境不断的信息交互中使得智能体学习如何采取行为来达到它目标的一种方法。
目前PPO算法的优化方法研究在一些传统的完备性信息博弈如Atari游戏中有体现,但由于PPO算法模型训练过程中难以收敛,性能下降及陷入局部最优的难点,使得未有专门针对麻将类的非完备信息博弈问题的优化方法展开相关研究。
发明内容
基于此,本发明的目的是提供一种基于强化学习的非完备信息博弈的模型决策方法及系统,用于解决现有技术中PPO算法模型训练过程中难以收敛,性能下降及陷入局部最优的难点的技术问题。
本申请一方面提供一种基于强化学习的非完备信息博弈的模型决策方法,所述方法包括:
获取博弈模型的场面信息,所述场面信息包括当前参与者当前剩余棋牌的牌面、以及竞争对手当前的剩余棋牌的牌面;
根据所述场面信息分别获得所述模型中目标函数的当前更新对局轨迹的策略熵、以及当前更新对局轨迹的散度项,所述当前更新对局轨迹的策略熵包括当前策略熵值,所述当前更新对局轨迹的散度项包括当前散度值,分别调节所述当前策略熵值以及所述当前散度值,使得所述当前策略熵值收敛于目标策略熵值、所述当前散度值收敛于目标散度值;
根据所述当前更新对局轨迹的策略熵、及所述当前更新对局轨迹的散度项获得所述目标函数的收敛值,使得所述收敛值接近预设阈值;
依据所述竞争对手当前的剩余棋牌的牌面与所述当前参与者当前剩余棋牌的牌面,决策出牌。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中至江西智能技术有限公司,未经中至江西智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110899376.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种航天器气动融合轨道摄动分析方法
- 下一篇:手表佩戴状态的检测方法及装置