[发明专利]使用占有测度对强化学习动作进行自动解释在审
| 申请号: | 202010834947.8 | 申请日: | 2020-08-19 |
| 公开(公告)号: | CN112488307A | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | A·扎多罗伊尼;M·马辛 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/08;G06N20/00 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 李永敏;于静 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 占有 测度 强化 学习 动作 进行 自动 解释 | ||
1.一种方法,包括:
操作至少一个硬件处理器,以自动识别驱动强化学习模型以推荐感兴趣动作的特征,
其中,所述识别是基于与所述强化学习模型相关联的状态-动作对的占有测度。
2.根据权利要求1所述的方法,还包括操作所述至少一个硬件处理器以:
拟合所述强化学习模型,以生成策略;
基于所述策略,计算所述状态-动作对的概率;
基于所述概率,计算所述状态-动作对的所述占有测度;
接收对所述感兴趣动作的选择;以及
选择所述状态-动作对中包括所述感兴趣动作并具有符合预定阈值的占有测度的状态-动作对;
其中,所述识别包括:根据所选择的状态-动作对的状态来识别所述特征。
3.根据权利要求2所述的方法,其中,所述预定阈值是具有最高占有测度的预定数量的状态-动作对。
4.根据权利要求2所述的方法,其中:
所述状态-动作对的每个状态包括特征向量。
所识别的特征来自所选择的状态-动作对的所述状态的所述特征向量;以及
所述方法进一步包括:操作所述至少一个硬件处理器以根据期望的维度水平来降低所选择的状态-动作对的所述状态的所述特征向量的维度,以使得所识别的特征是所选择的状态-动作对的所述状态的所述特征向量中最实质的特征。
5.根据权利要求4所述的方法,其中,所述维度的降低包括:执行主成分分析(PCA)以识别与所述期望的维度水平相对应的多个主成分。
6.根据权利要求1所述的方法,其中,所述强化学习模型是深度强化学习模型。
7.根据权利要求1所述的方法,进一步包括操作所述至少一个硬件处理器以:
发出所识别特征的指示;以及
基于所述指示,执行以下至少一项:(a)影响所述强化学习模型在其中运行的物理系统的动作,以及(b)所述强化学习模型的调整。
8.一种系统,包括:
(a)至少一个硬件处理器;以及
(b)非暂时性计算机可读存储介质,所述计算机可读存储介质中体现有程序代码,所述程序代码能够由所述至少一个硬件处理器执行以:
自动识别驱动强化学习模型以推荐感兴趣动作的特征,
其中,所述识别是基于与所述强化学习模型相关联的状态-动作对的占有测度。
9.根据权利要求8所述的系统,其中,所述程序代码还能够由所述至少一个硬件处理器执行以:
拟合所述强化学习模型,以生成策略;
基于所述策略,计算所述状态-动作对的概率;
基于所述概率,计算所述状态-动作对的所述占有测度;
接收对所述感兴趣动作的选择;以及
选择所述状态-动作对中包括所述感兴趣动作并具有符合预定阈值的占有测度的状态-动作对;
其中,所述识别包括:根据所选择的状态-动作对的状态来识别所述特征。
10.根据权利要求9所述的系统,其中,所述预定阈值是具有最高占有测度的预定数量的状态-动作对。
11.根据权利要求9所述的系统,其中:
所述状态-动作对的每个状态包括特征向量。
所识别的特征来自所选择的状态-动作对的所述状态的所述特征向量;以及
所述程序代码还能够由所述至少一个硬件处理器执行以根据期望的维度水平来降低所选择的状态-动作对的所述状态的所述特征向量的维度,以使得所识别的特征是所选择的状态-动作对的所述状态的所述特征向量中最实质的特征。
12.根据权利要求11所述的系统,其中,所述维度的降低包括:执行主成分分析(PCA)以识别与所述期望的维度水平相对应的多个主成分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010834947.8/1.html,转载请声明来源钻瓜专利网。





