[发明专利]一种强化学习中受意愿控制的策略学习方法在审

申请号：	201711407741.1	申请日：	2017-12-22
公开（公告）号：	CN108182476A	公开（公告）日：	2018-06-19
发明（设计）人：	赵婷婷;孔乐;任德华;吴超;胡志强	申请（专利权）人：	天津科技大学
主分类号：	G06N99/00	分类号：	G06N99/00
代理公司：	天津盛理知识产权代理有限公司 12209	代理人：	王利文
地址：	300222 天津市河***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种强化学习中受意愿控制的策略学习方法，其主要技术特点是：在原始的累计期望回报基础上，加入意愿变量与动作的互信息正则约束，使得累积期望回报最大的同时，隐变量与产生动作之间的互信息最大化，在求解最优解的过程中，使用变分的方法来逼近真实的最优解。本发明设计合理，能够实现可受意愿控制功能，其与人类采取行动的模式一致，更加符合智能化的标准，且在特定任务情况下，可以加快学习速度；同时，在实际求解过程中，利用变分方法提供了与原目标函数等价的可以求解的目标函数，使难解的目标函数求解问题可解。
搜索关键词：	目标函数强化学习最优解求解互信息最大化技术特点控制功能求解过程求解问题互信息智能化回报期望等价学习逼近
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种强化学习中受意愿控制的策略学习方法，其特征在于包括以下步骤：步骤1、在原始的累计期望回报基础上，加入意愿变量与动作的互信息正则约束，使得累积期望回报最大的同时，隐变量与产生动作之间的互信息最大化，其目标函数表示为：Φ(θ)＝J(θ)+λ·I(c；πθ(at|st,c))其中，J(θ)为强化学习方法中的原始的累积期望回报；I(c；πθ(at|St,c))表示隐变量c与动作变量At之间的互信息，πθ(At|st,c)表示策略模型，c表示意愿变量或可解释的隐变量，λ表示正则化超参数，θ表示策略参数；学习最终目标是找到最优参数θ*：θ*＝argmaxθΦ(θ)；步骤2、在求解最优解的过程中，使用下述的变分的方法来逼近真实的最优解：定义Q(c|at)来逼近p(c|at)，从而获得互信息的变分下解为：将目标函数在实际优化过程中，等价为MAxθ,QJ(θ)+λ·L(π,Q)其中Q为隐变量后验概率的逼近，π为策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津科技大学，未经天津科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711407741.1/，转载请声明来源钻瓜专利网。

上一篇：一种基于自动编码机-超限学习机的多维度数据特征识别方法
下一篇：一种基于POVM测量的量子感知机方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N99-00 本小类其他各组中不包括的技术主题

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种强化学习中受意愿控制的策略学习方法在审

专利文献下载