[发明专利]一种模型训练方法、游戏测试方法、模拟操作方法及装置有效
申请号: | 202010419220.3 | 申请日: | 2020-05-18 |
公开(公告)号: | CN111598169B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 黄超 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F18/2415 | 分类号: | G06F18/2415;G06F18/25;G06F18/214 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 游戏 测试 模拟 操作方法 装置 | ||
本申请公开了一种应用于人工智能领域的模型训练方法,包括:从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本;基于第一地图样本,通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率;基于第一地图样本以及M个动作类别,通过待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图;根据动作类别概率、目标动作类别、预测地图以及第二地图样本,对待训练多任务深度模型进行训练,得到多任务深度模型。本申请还提供了一种游戏测试方法、模拟操作方法及装置。本申请在整个训练过程无需耗费大量时间与环境进行交互,减少了训练时间,提升了模型训练的效率。同时,还降低过拟合的风险,从而提升模型效果。
技术领域
本申请涉及人工智能领域,尤其涉及一种模型训练方法、游戏测试方法、模拟操作方法及装置。
背景技术
近年来,人工智能(Artificial Intelligence,AI)技术掀起了以深度学习为核心的变革,如今,AI技术开始向各个垂直领域扩展,例如金融、医疗以及游戏行业等。对于游戏行业而言,基于AI技术可以实现游戏测试、人机对战以及队友辅助等功能。
目前,可针对游戏设计一个用于模拟真实玩家的AI模型,通常采用强化学习的方法训练该AI模型。具体为,先与环境进行交互,再根据游戏角色的动作反馈计算动作的奖励,通过将奖励最大化的方式来优化AI模型的模型参数。
然而,基于强化学习的方法训练AI模型,虽然能够取得较好的模拟效果,但是这种方式需要长时间的与环境进行交互,导致训练的时间较长。
发明内容
本申请实施例提供了一种模型训练方法、游戏测试方法、模拟操作方法及装置,整个训练过程无需耗费大量时间与环境进行交互,从而减少了训练时间,提升了模型训练的效率。与此同时,还可降低过拟合的风险,从而提升模型效果。
有鉴于此,本申请一方面提供一种模型训练的方法,包括:
从游戏视频样本中获取第一地图样本、第二地图样本以及M个地图样本,其中,游戏视频样本至少包括三帧游戏图像,每帧游戏图像包括一个地图样本,第一地图样本与第二地图样本之间间隔M个地图样本,M为大于或等于1的整数;
基于第一地图样本,通过待训练多任务深度模型所包括的待训练主任务网络获取动作类别概率,其中,第一地图样本对应于目标动作类别;
基于第一地图样本以及M个动作类别,通过待训练多任务深度模型所包括的待训练辅助任务网络获取预测地图,其中,M个动作类别与M个地图样本具有对应关系;
根据动作类别概率、目标动作类别、预测地图以及第二地图样本,对待训练多任务深度模型进行训练,得到多任务深度模型,其中,多任务深度模型包括主任务网络以及辅助任务网络。
本申请另一方面提供一种游戏测试的方法,包括:
针对于待测试游戏,获取待测试游戏图像所对应的地图;
基于待测试游戏图像所对应的地图,通过多任务深度模型中的主任务网络获取动作类别概率,其中,多任务深度模型为采用上述方法训练得到的;
根据动作类别概率确定目标动作类别;
根据目标动作类别,控制终端设备执行相应的模拟操作,以得到操作反馈结果;
根据操作反馈结果生成游戏测试结果。
本申请另一方面提供一种模拟操作的方法,包括:
获取游戏图像中的目标地图;
基于目标地图,通过多任务深度模型中的主任务网络获取动作类别概率,其中,多任务深度模型为采用上述方法训练得到的;
根据动作类别概率确定目标动作类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010419220.3/2.html,转载请声明来源钻瓜专利网。