[发明专利]难度自适应游戏系统策略规划方法在审
申请号: | 201810778924.2 | 申请日: | 2018-07-16 |
公开(公告)号: | CN108970119A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 章宗长;陈子璇;潘致远;陈赢峰;范长杰 | 申请(专利权)人: | 苏州大学;网易(杭州)网络有限公司 |
主分类号: | A63F13/67 | 分类号: | A63F13/67;G06N3/04;G06N3/08 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 冯瑞;杨慧林 |
地址: | 215131 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于基于优先级值迭代网络的难度自适应游戏系统策略规划方法。该游戏系统由两部分构成:用于进行图像特征信息提取的卷积神经网络和用于进行策略泛化处理的优先级值迭代网络。该系统可嵌入至任意对抗类游戏中,当玩家开始游戏前,会从系统的难度系数中选择某一等级的对抗机器人(Adversarial Non‑personal Character,A‑NPC)。根据选定的难度系数,系统会从服务器的数据库中获取相应难度的玩家样本策略信息,并在服务器端根据玩家样本策略信息进行模仿学习,得到优先级值迭代网络的参数。该参数在游戏载入时传送至客户端。 | ||
搜索关键词: | 游戏系统 迭代 策略规划 策略信息 难度系数 自适应 游戏 样本 卷积神经网络 图像特征信息 服务器端 网络 客户端 对抗 嵌入 服务器 机器人 数据库 模仿 传送 载入 学习 | ||
【主权项】:
1.一种基于优先级值迭代网络的难度自适应游戏系统策略规划方法,其特征在于,包括:S1、为所述游戏系统的所述服务器数据库中存储多张信息已知的游戏图像,这些图像的信息包括游戏环境信息和相应难度的玩家策略信息;S2、当玩家选定难度系数后,从服务器中获取相应难度的游戏信息o(s),o(s)是指原始的游戏环境信息和相应的玩家策略信息;在服务器端,由信息o(s)经过卷积神经网络中的过滤器提取初始的特征信息φ(s),特征信息φ(s)经过卷积映射函数fR得到初始的奖赏信息
经过卷积映射函数fP得到初始的转移概率函数
奖赏信息
为一张表示已知游戏环境图像中各状态奖赏值的特征图;转移概率函数
为各状态‑动作对的转移概率值,由奖赏信息
经过卷积神经网络中的过滤器得到初始的状态值函数
S3、值迭代模块的结构是一个类卷积神经网络,奖赏信息
状态值函数
作为优先级值迭代模块的输入,转移概率函数
作为优先级值迭代模块中的卷积核,三者共同维持各个动作
在状态s下的动作值
经过几轮更新迭代之后,状态值函数会逐渐接近最优值函数
即为该模块的输出;S4、在优先级值迭代模块中,首先初始化每个状态的优先级,使得每个状态都至少被选择一次;在每次更新过程中,首先根据优先级选取需要更新的当前状态s,得到该状态的值函数v(s);将该状态的值函数v(s)与转移概率函数
以及奖赏信息
输入至值迭代模块中,经过S3操作完成一次值迭代更新;该状态的优先级会在此次更新之后也进行更新;经过几轮迭代更新后,优先级值迭代模块会输出各个状态下最优值
的近似值;S5、将获得的近似最优值函数输入注意力模块中,根据注意力机制,输出与当前状态s最相关的状态值信息ψ(s);S6、当游戏系统接收到新的难度等级时,即相当于优先级值迭代网络接收到了一个新的游戏环境图像,根据原有图像的特征信息φ(s)和状态值信息ψ(s)以及实时输赢信息,即可较为迅速地获得一个或多个对抗性策略;S7、该游戏系统将新收到的游戏环境图像存储在服务器数据库中,结合之前已存储的环境图像,修正由于该游戏环境图像信息不准确而造成的误差,提高游戏系统所得到的对抗性策略的精准度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学;网易(杭州)网络有限公司,未经苏州大学;网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810778924.2/,转载请声明来源钻瓜专利网。
- 上一篇:游戏元素组合方法及装置
- 下一篇:一种由游戏玩家进行技能升级的方法