[发明专利]交互模型训练方法、装置、计算机设备和存储介质有效
| 申请号: | 202010247990.4 | 申请日: | 2020-04-01 |
| 公开(公告)号: | CN111111204B | 公开(公告)日: | 2020-07-03 |
| 发明(设计)人: | 邱福浩;韩国安;李晓倩;王亮;付强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | A63F13/67 | 分类号: | A63F13/67;G06N20/00;G06N3/08 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 陈小娜 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 交互 模型 训练 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种交互模型训练方法、装置、计算机设备和存储介质,涉及人工智能,交互模型训练方法包括:获取虚拟交互环境对应的第一交互状态特征,以及获取第一交互动作,第一交互动作是通过将第一交互状态特征,输入到待训练的第一交互模型中确定的;获取目标虚拟对象执行第一交互动作得到的收益,作为第一收益;将第一交互状态特征以及第一交互动作输入到目标交互策略对应的目标策略判别模型中,得到第一策略判别值;根据第一策略判别值计算得到第二收益;根据第一收益以及第二收益计算得到目标收益;根据目标收益对待训练的第一交互模型的模型参数进行调整,得到更新后的第一交互模型。采用本方法能够提高模型训练效果。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种交互模型训练方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的不断发展,游戏逐渐成为人们热衷的娱乐节目,例如,用户可以通过多人在线战斗竞技场游戏(Multiplayer Online Battle Arena,MOBA)与其他游戏玩家进行竞技。
目前,可以利用人工智能模型进行游戏,例如在游戏玩家掉线时可以暂时托管,利用人工智能模型代替掉线的真实玩家与另一游戏真实玩家进行游戏对抗。人工智能模型需要预先利用训练数据进行训练,目前的人工智能模型的训练大多是依赖于不断的对战训练从而得到进化,然而,经常存在训练得到的模型不能满足现实需要,模型训练效果差的问题。
发明内容
基于此,有必要针对上述模型训练效果差的技术问题,提供一种交互模型训练方法、装置、计算机设备和存储介质。
一种交互模型训练方法,所述方法包括:获取虚拟交互环境对应的第一交互状态特征,以及获取第一交互动作,所述第一交互动作是通过将所述第一交互状态特征,输入到待训练的第一交互模型中确定的;获取目标虚拟对象执行所述第一交互动作得到的收益,作为第一收益;将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中,得到第一策略判别值;根据所述第一策略判别值计算得到第二收益,所述第一策略判别值与所述第二收益成正相关关系;根据所述第一收益以及所述第二收益计算得到目标收益;根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整,得到更新后的第一交互模型。
一种交互模型训练装置,所述装置包括:第一交互数据获取模块,用于获取虚拟交互环境对应的第一交互状态特征,以及获取第一交互动作,所述第一交互动作是通过将所述第一交互状态特征,输入到待训练的第一交互模型中确定的;第一收益获取模块,用于获取目标虚拟对象执行所述第一交互动作得到的收益,作为第一收益;第一策略判别值得到模块,用于将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中,得到第一策略判别值;第二收益得到模块,用于根据所述第一策略判别值计算得到第二收益,所述第一策略判别值与所述第二收益成正相关关系;目标收益得到模块,用于根据所述第一收益以及所述第二收益计算得到目标收益;第一交互模型参数调整模块,用于根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整,得到更新后的第一交互模型。
在一些实施例中,所述目标交互策略为预设交互用户级别对应的交互策略,所述目标交互数据获取模块用于:获取根据所述预设交互用户级别的用户操作得到的交互动作,作为目标交互动作;获取所述目标交互动作对应的交互状态特征,作为目标交互状态特征。
在一些实施例中,所述第一交互数据获取模块用于:获取待训练的第一交互模型对应的对战模型,作为第二交互模型;控制所述待训练的第一交互模型与所述第二交互模型在虚拟交互环境中进行交互,得到所述第一交互模型对应的交互记录数据;根据所述交互记录数据获取得到第一交互状态特征以及第一交互动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010247990.4/2.html,转载请声明来源钻瓜专利网。





