[发明专利]基于AlphaGo Zero改进的国际象棋博弈方法在审
申请号: | 201910837810.5 | 申请日: | 2019-09-05 |
公开(公告)号: | CN110555517A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 郑秋梅;王璐璐;商振浩 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;A63F3/00;G06F11/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出基于AlphaGo Zero改进的国际象棋博弈方法,扩展了AlphaGo Zero方法在人机博弈领域的应用范围,属于机器人科技娱乐领域。其包括以下步骤:采用能有效避免梯度弥散并能够获得最优位置收敛的CNN、ResNet以及全连接层在内的混合网络结构,并使用一个训练网络同时输出策略与估值;2)采用强化学习策略,通过使用自我博弈(Self‑Play)产生的数据进行训练,解决序贯结构的数据训练规模较大的问题,在博弈过程中进行模型优化;3)神经网络训练优化模型,定义损失函数并选择相应的优化器进行向减小损失方向的迭代更新;4)网络模型评估,使用训练一段时间后的新模型与训练前的模型进行对弈,根据胜负局数获取当前模型的性能以判定是否进行模型的迭代;5)采用第三方软件进行可视化交互博弈测试与评估。 | ||
搜索关键词: | 博弈 神经网络训练 第三方软件 可视化交互 迭代更新 模型优化 强化学习 输出策略 数据训练 损失函数 网络结构 网络模型 训练网络 优化模型 娱乐领域 最优位置 连接层 优化器 弥散 评估 迭代 减小 国际象棋 对弈 机器人 收敛 判定 测试 应用 改进 | ||
【主权项】:
1.基于AlphaGo Zero改进的国际象棋博弈方法,其包含如下步骤:/n1)采用能有效避免梯度弥散并能够获得最优位置收敛的CNN、ResNet以及全连接层在内的混合网络结构,并使用一个训练网络同时输出策略与估值;/n2)采用强化学习策略,通过使用自我博弈(Self-Play)产生的数据进行训练,解决序贯结构的数据训练规模较大的问题,在博弈过程中进行模型优化;/n3)神经网络训练优化模型,定义损失函数并选择相应的优化器进行向减小损失方向的迭代更新;/n4)网络模型评估,使用训练一段时间后的新模型与训练前的模型进行对弈,根据胜负局数获取当前模型的性能以判定是否进行模型的迭代;/n5)采用第三方软件进行可视化交互博弈测试与评估。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910837810.5/,转载请声明来源钻瓜专利网。