[发明专利]一种强化学习中受意愿控制的策略学习方法在审

申请号：	201711407741.1	申请日：	2017-12-22
公开（公告）号：	CN108182476A	公开（公告）日：	2018-06-19
发明（设计）人：	赵婷婷;孔乐;任德华;吴超;胡志强	申请（专利权）人：	天津科技大学
主分类号：	G06N99/00	分类号：	G06N99/00
代理公司：	天津盛理知识产权代理有限公司 12209	代理人：	王利文
地址：	300222 天津市河***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标函数强化学习最优解求解互信息最大化技术特点控制功能求解过程求解问题互信息智能化回报期望等价学习逼近
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种强化学习中受意愿控制的策略学习方法，其主要技术特点是：在原始的累计期望回报基础上，加入意愿变量与动作的互信息正则约束，使得累积期望回报最大的同时，隐变量与产生动作之间的互信息最大化，在求解最优解的过程中，使用变分的方法来逼近真实的最优解。本发明设计合理，能够实现可受意愿控制功能，其与人类采取行动的模式一致，更加符合智能化的标准，且在特定任务情况下，可以加快学习速度；同时，在实际求解过程中，利用变分方法提供了与原目标函数等价的可以求解的目标函数，使难解的目标函数求解问题可解。

技术领域

本发明属于机器学习技术领域，尤其是一种强化学习中受意愿控制的策略学习方法。

背景技术

强化学习(Reinforcement learning，简称RL)作为机器学习领域的重要学习方法，主要研究智能体如何根据当时的环境做出较好的决策，被认为是真实世界的缩影，是最有希望实现人工智能这个目标的研究领域之一。为了实现强化学习的目标，要求智能体能够对周围环境有所认知，理解当前所处状态，根据任务要求做出符合环境情境的决策动作。强化学习的核心智能体能够自主地进行动作选择，找到一个适合当前状态下最优的动作选择策略，整个决策过程获得最大累积奖赏。

在国内外已有的研究中，策略学习主要包括策略迭代与策略搜索两大主要算法。策略迭代算法首先要对状态动作的价值函数进行估计，策略是建立在估计的价值函数基础上。策略搜索算法直接通过最大化累积回报来学习最优策略。这两类方法都能在一定程度上解决序列性决策控制问题，策略迭代方法适合解决离散的状态动作空间问题，策略搜索算法非常适用于连续动作空间问题。在已有的强化学习方法中，动作的选择通常是基于当前的状态或历史数据及策略模型；然而，在实际情况下，人类进行动作的选择时，除了受控于当时的环境及任务要求以外，还会将自身的意愿、动机考虑进去。受意愿控制的强化学习方法在现有研究中是一项空白，而受意愿或动机控制的动作选择机制更加符合实际情况，更符合人类动作选择模式，同时也更符合智能化的标准。因此，如何使智能体根据具体意愿进行动作的选择并完成任务是目前迫切需要解决的问题。

发明内容

本发明的目的在于克服现有技术的不足，提出一种设计合理、学习速度快且准确性高的强化学习中受意愿控制的策略学习方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种强化学习中受意愿控制的策略学习方法，包括以下步骤：

步骤1、在原始的累计期望回报基础上，加入意愿变量与动作的互信息正则约束，使得累积期望回报最大的同时，隐变量与产生动作之间的互信息最大化，其目标函数表示为：

Φ(θ)＝J(θ)+λ·I(c；π_θ(a_t|s_t,c))

其中，J(θ)为强化学习方法中的原始的累积期望回报；I(c；π_θ(a_t|s_t,c))表示隐变量c与动作变量a_t之间的互信息，π_θ(a_t|s_t,c)表示策略模型，c表示意愿变量或可解释的隐变量，λ表示正则化超参数，θ表示策略参数；

学习最终目标是找到最优参数θ^*：

θ^*＝argmax_θΦ(θ)；

步骤2、在求解最优解的过程中，使用下述的变分的方法来逼近真实的最优解：

定义Q(c|a_t)来逼近p(c|a_t)，从而获得互信息的变分下解为：

将目标函数在实际优化过程中，等价为