[发明专利]一种结合TAMER框架和面部表情反馈的交互强化学习方法在审

申请号：	201910967991.3	申请日：	2019-10-12
公开（公告）号：	CN110826723A	公开（公告）日：	2020-02-21
发明（设计）人：	李光亮;林金莹;张期磊;何波;冯晨	申请（专利权）人：	中国海洋大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06F3/01;G06K9/00
代理公司：	北京汇捷知识产权代理事务所(普通合伙) 11531	代理人：	马金华
地址：	266100 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合 tamer 框架面部表情反馈交互强化学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于人工智能技术领域，公开了一种结合TAMER框架和面部表情反馈的交互强化学习方法，所述方法结合TAMER框架和面部表情评估形成Face Valuing‑TAMER；所述算法为：TAMER通过从人类反馈中学习值函数来预期未来奖励。人类训练者首先在TAMER框架下训练智能体，通过键盘按键反馈提供奖励信号，训练智能体获得一个初始的可执行策略，然后允许人类训练者通过面部表情反馈提供奖励调整智能体的行为。本发明通过基于面部表情反馈的交互强化学习方法可以减少人类用户训练智能体过程中的认知负担，使智能体更好的理解人类偏好，能够有效的从人类奖励中进行学习。

技术领域

本发明属于人工智能技术领域，尤其涉及一种结合TAMER框架和面部表情反馈的交互强化学习方法。

背景技术

目前，最接近的现有技术：

研究以人为中心的强化学习方法近年来受到广泛关注，通过人类反馈进行强化学习已经被证明是一种非常有效的方法，它允许非技术人员指导智能体执行任务，智能体从人类反馈中学习的优势使这一方法在现实生活中的应用越来越广泛。智能体从人类反馈中学习时，需要一个不断的试错过程：当智能体执行一个正确的动作时，人类用户可以通过提供一个积极的反馈来鼓励它，当智能体执行一个不正确的动作时，需要提供一个消极反馈对它进行惩罚，告诉智能体尝试其他动作，这可能会带来一定的风险，因为智能体可能会执行更糟糕的动作。人类用户便需要提供更多反馈引导智能体修正已经学到的模型并重新学习正确的行为策略，这将增加智能体的学习成本并给人类带来更多负担。

交互强化学习的一个重要应用是扩展或增强人类的认知和身体能力。要做到这一点，智能体必须了解人类用户的意图并适应他们的偏好，在当前的大多数研究中，人类用户的偏好是通过明确的指示或者昂贵的纠正反馈传达的，比如通过预定义的单词或句子、按钮、鼠标单点等形式，然而在实际应用中，这些反馈方法会增加人类用户的认知负荷。

TAMER是一种典型的交互强化学习方法，在TAMER中，系统能够学习人类用户奖励的预测模型，这一模型甚至能在人类奖励延迟或者不一致的情况下成功地训练智能体，但是它存在一定的缺点：当用户需要更新智能体的行为时，必须更新模型。

因此，亟需一种基于面部表情反馈的交互强化学习方法，允许训练者在不需要大量昂贵的交互行为的情况下提供反馈，并且不需要重新训练智能体就可以转移到新的或者变化着的场景中。

综上所述，现有技术存在的问题是：通过预定义的键盘反馈等明确反馈形式调整智能体的行为会增加人类用户的认知负担，策略更新需要大量的交互行为，增加了学习成本。

解决上述技术问题的难度：

1、如何向TAMER框架中引入面部表情识别处理，用面部表情取代键盘等明确反馈接口；

2、如何将人类复杂的面部表情与奖励信号有效结合，为智能体学习提供有效反馈。

解决上述技术问题的意义：

1、直接意义是减少智能体训练过程中需要的明确反馈的数量，降低人类用户的认知负担；

2、建立起人类用户与智能体直接沟通的渠道，人类用户不需要提前进行技能培训便可获得能快速适应自己偏好的智能体；

3、尤其是对肢体障碍的残障人士，他们不方便与智能体进行肢体交互，面部表情反馈的引入为他们提供了便利。

发明内容

针对现有技术存在的问题，本发明提供了一种结合TAMER框架和面部表情反馈的交互强化学习方法，结合明确反馈和面部表情反馈在TAMER框架上进行学习。