[发明专利]基于AlphaGo Zero改进的国际象棋博弈方法在审

专利信息
申请号: 201910837810.5 申请日: 2019-09-05
公开(公告)号: CN110555517A 公开(公告)日: 2019-12-10
发明(设计)人: 郑秋梅;王璐璐;商振浩 申请(专利权)人: 中国石油大学(华东)
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;A63F3/00;G06F11/36
代理公司: 暂无信息 代理人: 暂无信息
地址: 266580 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出基于AlphaGo Zero改进的国际象棋博弈方法,扩展了AlphaGo Zero方法在人机博弈领域的应用范围,属于机器人科技娱乐领域。其包括以下步骤:采用能有效避免梯度弥散并能够获得最优位置收敛的CNN、ResNet以及全连接层在内的混合网络结构,并使用一个训练网络同时输出策略与估值;2)采用强化学习策略,通过使用自我博弈(Self‑Play)产生的数据进行训练,解决序贯结构的数据训练规模较大的问题,在博弈过程中进行模型优化;3)神经网络训练优化模型,定义损失函数并选择相应的优化器进行向减小损失方向的迭代更新;4)网络模型评估,使用训练一段时间后的新模型与训练前的模型进行对弈,根据胜负局数获取当前模型的性能以判定是否进行模型的迭代;5)采用第三方软件进行可视化交互博弈测试与评估。
搜索关键词: 博弈 神经网络训练 第三方软件 可视化交互 迭代更新 模型优化 强化学习 输出策略 数据训练 损失函数 网络结构 网络模型 训练网络 优化模型 娱乐领域 最优位置 连接层 优化器 弥散 评估 迭代 减小 国际象棋 对弈 机器人 收敛 判定 测试 应用 改进
【主权项】:
1.基于AlphaGo Zero改进的国际象棋博弈方法,其包含如下步骤:/n1)采用能有效避免梯度弥散并能够获得最优位置收敛的CNN、ResNet以及全连接层在内的混合网络结构,并使用一个训练网络同时输出策略与估值;/n2)采用强化学习策略,通过使用自我博弈(Self-Play)产生的数据进行训练,解决序贯结构的数据训练规模较大的问题,在博弈过程中进行模型优化;/n3)神经网络训练优化模型,定义损失函数并选择相应的优化器进行向减小损失方向的迭代更新;/n4)网络模型评估,使用训练一段时间后的新模型与训练前的模型进行对弈,根据胜负局数获取当前模型的性能以判定是否进行模型的迭代;/n5)采用第三方软件进行可视化交互博弈测试与评估。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910837810.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top