[发明专利]基于强化学习的非完备信息博弈的模型决策方法及系统在审

申请号：	202110899376.0	申请日：	2021-08-06
公开（公告）号：	CN113332702A	公开（公告）日：	2021-09-03
发明（设计）人：	王嘉旸;曾旺;李一华;修文超;黄伟;熊唤亮;王命延	申请（专利权）人：	中至江西智能技术有限公司
主分类号：	A63F9/20	分类号：	A63F9/20;A63F11/00;G06N20/00
代理公司：	南昌旭瑞知识产权代理事务所(普通合伙) 36150	代理人：	彭琰
地址：	330000 江西省南***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于强化学习的非完备信息博弈的模型决策方法及系统，方法包括：获取博弈模型的场面信息；根据场面信息分别获得模型中目标函数的当前更新对局轨迹的策略熵、及当前更新对局轨迹的散度项；根据当前更新对局轨迹的策略熵、及当前更新对局轨迹的散度项获得目标函数的收敛值，使得收敛值接近预设阈值；依据竞争对手当前的剩余棋牌的牌面与当前参与者当前剩余棋牌的牌面，决策出牌。上述基于强化学习的非完备信息博弈的模型决策方法及系统，通过设置目标函数，调节目标函数的收敛值使得模型快速收敛，优化非完备信息博弈的模型决策，解决了现有技术中PPO算法模型训练过程中难以收敛，性能下降及陷入局部最优的难点的技术问题。
搜索关键词：	基于强化学习完备信息博弈模型决策方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中至江西智能技术有限公司，未经中至江西智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202110899376.0/，转载请声明来源钻瓜专利网。

上一篇：一种航天器气动融合轨道摄动分析方法
下一篇：手表佩戴状态的检测方法及装置

同类专利

专利分类

A 农业

A63 运动；游戏；娱乐活动
A63F 纸牌、棋盘或轮盘赌游戏；利用小型运动物体的室内游戏；其他类目不包含的游戏
A63F9-00 在其他类目中不包含的游戏
A63F9-02 .射击或投掷游戏
A63F9-04 .骰子
A63F9-06 .单人纸牌游戏；个人娱乐用的其他游戏
A63F9-14 .以游戏者挪动有数字标记棋子为特征的竞赛、通行比赛或障碍比赛
A63F9-16 .旋转陀螺游戏

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强化学习的非完备信息博弈的模型决策方法及系统在审

专利文献下载