[发明专利]奖励数据分析方法、装置、设备、存储介质及程序产品在审

申请号：	202310542774.6	申请日：	2023-05-11
公开（公告）号：	CN116492688A	公开（公告）日：	2023-07-28
发明（设计）人：	熊宇;方星辰;关凯;吴润泽;吕唐杰;范长杰;胡志鹏	申请（专利权）人：	网易（杭州）网络有限公司
主分类号：	A63F13/60	分类号：	A63F13/60;A63F13/69;G06N3/08
代理公司：	北京风雅颂专利代理有限公司 11403	代理人：	李翔
地址：	310056 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	奖励数据分析方法装置设备存储介质程序产品
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种奖励数据分析方法、装置、设备、存储介质及程序产品。该方法包括：采集待解释模型执行对局产生的目标数据；其中，目标数据，包括：对局内机器人在每一时刻对应的状态数据下执行动作数据所得到的奖励数据以及状态数据、动作数据和奖励数据之间相互关联的映射关系；利用神经网络模型推理得到与状态数据和动作数据对应的奖励数据；确定状态数据针对期望值的第一SHAP值以及动作数据针对期望值的第二SHAP值；第一SHAP值用于表征状态数据对期望值的影响程度，第二SHAP值用于表征动作数据对期望值的影响程度；根据第一SHAP值调整机器人的状态数据对应的奖励数据，并根据第二SHAP值调整机器人的动作数据对应的奖励数据。

技术领域

本申请涉及计算机技术领域，尤其涉及一种奖励数据分析方法、装置、设备、存储介质及程序产品。

背景技术

相关技术中，在游戏中设置AI机器人来使其完成对应任务成为常态，在训练AI机器人对应的强化学习模型时，通常依赖工程师的人工经验，通过逐个调参，观察调参后机器人的表现来进一步调整对AI机器人的表现对应的奖励数据，来对机器人进行调试。因为调试过程往往需要重复多次，而强化学习模型又具有训练缓慢的特点，使得相关技术存在着训练效率低且训练效果较差的问题。

发明内容

有鉴于此，本申请的目的在于提出一种奖励数据分析方法、装置、设备、存储介质及程序产品。

基于上述目的，在第一方面，本申请提供了一种奖励数据分析方法，所述方法包括：

采集待解释模型执行对局产生的目标数据；其中，所述目标数据，包括：所述对局内机器人在每一时刻对应的状态数据下执行动作数据所得到的奖励数据以及所述状态数据、所述动作数据和所述奖励数据之间相互关联的映射关系；

利用预先训练得到的神经网络模型根据所述映射关系对所述状态数据和所述动作数据推理得到与所述状态数据和所述动作数据对应的奖励数据的期望值；

确定所述状态数据针对所述期望值的第一SHAP值以及所述动作数据针对所述期望值的第二SHAP值；其中，所述第一SHAP值用于表征所述状态数据对所述期望值的影响程度，所述第二SHAP值用于表征所述动作数据对所述期望值的影响程度；

根据所述第一SHAP值调整所述机器人的状态数据对应的所述奖励数据，并根据所述第二SHAP值调整所述机器人的动作数据对应的所述奖励数据。

在第二方面，本申请提供了一种奖励数据分析装置，所述装置包括：

采集模块，被配置为采集待解释模型执行对局产生的目标数据；其中，所述目标数据，包括：所述对局内机器人在每一时刻对应的状态数据下执行动作数据所得到的奖励数据以及所述状态数据、所述动作数据和所述奖励数据之间相互关联的映射关系；

第一确定模块，被配置为利用预先训练得到的神经网络模型根据所述映射关系对所述状态数据和所述动作数据推理得到与所述状态数据和所述动作数据对应的奖励数据的期望值；

第二确定模块，被配置为确定所述状态数据针对所述期望值的第一SHAP值以及所述动作数据针对所述期望值的第二SHAP值；其中，所述第一SHAP值用于表征所述状态数据对所述期望值的影响程度，所述第二SHAP值用于表征所述动作数据对所述期望值的影响程度；

调整模块，被配置为根据所述第一SHAP值调整所述机器人的状态数据对应的所述奖励数据，并根据所述第二SHAP值调整所述机器人的动作数据对应的所述奖励数据。

在第三方面，本申请提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的奖励数据分析方法。

在第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如第一方面所述的奖励数据分析方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于网易（杭州）网络有限公司，未经网易（杭州）网络有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310542774.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种提高火车车轮轮毂屈服强度的冷却装置及其冷却方法
下一篇：一种节能真空泵的灰尘处理装置

同类专利

专利分类

A 农业

A63 运动；游戏；娱乐活动
A63F 纸牌、棋盘或轮盘赌游戏；利用小型运动物体的室内游戏；其他类目不包含的游戏
A63F13-00 使用二维或多维电子显示器
A63F13-02 .附件
A63F13-08 .结构零件或布置，例如其他类目不包括的壳体、导线、连接件、操纵台
A63F13-10 .游戏过程的控制，例如开始、进行、结束
A63F13-12 .涉及若干游戏装置之间的相互作用，例如传送和分配系统
A63F13-04 ..用于命中显示器上的特殊区域，如具有光电探测装置的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]奖励数据分析方法、装置、设备、存储介质及程序产品在审

专利文献下载