[发明专利]使用占有测度对强化学习动作进行自动解释在审
| 申请号: | 202010834947.8 | 申请日: | 2020-08-19 |
| 公开(公告)号: | CN112488307A | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | A·扎多罗伊尼;M·马辛 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/08;G06N20/00 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 李永敏;于静 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 占有 测度 强化 学习 动作 进行 自动 解释 | ||
本公开涉及使用占有测度对强化学习动作进行自动解释。在本公开中,自动识别驱动强化学习模型以推荐感兴趣动作的特征。该识别是基于与强化学习模型相关联的状态‑动作对的占有测度的计算。某些状态‑动作对的高占有测度指示这些对的状态可能包括所寻求的特征。
技术领域
本发明涉及机器学习领域。
背景技术
机器学习是一个广阔的领域,包括诸如监督学习、非监督学习、异常检测、相关联规则学习和强化学习的范例。后者,强化学习(RL),在机器人技术、工业自动化、自动驾驶车辆、自动化医疗诊断和治疗、计算机游戏、算法交易等领域获得成功。
强化学习与学习策略的问题有关,该策略可以使累积奖励的某些见解(notion)最大化的顺序(例如,在避免碰撞的同时快速到达目的地)将代理相对于环境的状态(例如,自动驾驶车辆的位置,速度,测距仪读数,摄像机图像)映射到代理动作(例如,加速、制动或转向车辆)。
被称为深度强化学习(DRL)的强化学习的扩展利用深度神经网络从训练集中学习模型。DRL被更好地配备以从原始、未经处理的信号(例如图像,传感器读数,文本)中学习,并且可享受诸如端到端增强学习的简化技术的好处。
一般而言,机器学习尤其是增强学习的挑战之一是需要向人类用户解释算法的决策。许多机器学习算法都会做出黑匣子预测和决策,从而阻止用户从这些算法秘密收集的洞察中学习。例如,当将机器学习算法应用于新领域时,用户可能会想在该算法完全部署到领域之前,知道是什么驱动了该算法的各种决策。更大的问题出现在诸如医疗保健、运输和安全的受监管的或关键任务领域中,机器学习系统的用户通常必须能够在事后解释做出某个(通常是错误的)决定的原因。尽管确实存在一些技术可以暴露机器学习算法的黑匣子操作,但加州大学伯克利分校在2017年的一篇论文仍然宣称这是下一代人工智能系统将要面临的主要挑战之一。参见Stoica,I.等人在加州大学伯克利分校EECS系的技术报告编号为UCB/EECS-2017-159(2017年10月16日)的“A Berkeley View of Systems Challenges forAI(伯克利对AI的系统挑战的看法)”。
相关技术的前述示例以及与之相关的限制旨在是说明性的而不是排他性的。通过阅读说明书和对附图的研究,相关领域的其他限制对于本领域技术人员将变得显而易见。
发明内容
结合系统、工具和方法来描述和说明以下实施例及其方面,这些系统、工具和方法是示例性和说明性的,而并不限制范围。
一个实施例涉及一种方法,该方法包括:操作至少一个硬件处理器,以自动识别驱动强化学习模型以推荐感兴趣动作的特征,其中,所述识别是基于与强化学习模型相关联的状态-动作对的占有测度(occupation measure)。
另一实施例涉及一种系统,该系统包括:(a)至少一个硬件处理器;(b)非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质中体现有程序代码,该程序代码能够由所述至少一个硬件处理器执行以:自动识别驱动强化学习模型以推荐感兴趣动作的特征,其中识别是基于与强化学习模型相关联的状态-动作对的占有测度。
另一实施例涉及一种计算机程序产品,该计算机程序产品包括非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质中体现有程序代码,该程序代码能够由至少一个硬件处理器执行以:自动识别驱动强化学习模型以推荐感兴趣动作的特征,其中,该识别是基于与强化学习模型相关联的状态-动作对的占有测度。
在一些实施例中,该至少一个硬件处理器还被操作为执行以下指令:拟合强化学习模型,以生成策略;基于该策略,计算状态-动作对的概率;基于该概率,计算状态-动作对的占有测度;接收对感兴趣动作的选择;并选择状态-动作对中包括感兴趣动作并具有符合预定阈值的占有测度的状态-动作对;其中,所述识别包括根据所选择的状态-动作对的状态识别特征。
在一些实施例中,预定阈值是具有最高占有测度的预定数量的状态-动作对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010834947.8/2.html,转载请声明来源钻瓜专利网。





