[发明专利]一种面向行为克隆的示范主动采样方法在审
申请号: | 202110248762.3 | 申请日: | 2021-03-08 |
公开(公告)号: | CN112906868A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 黄圣君;黄文宇 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 秦秋星 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 行为 克隆 示范 主动 采样 方法 | ||
本发明公开了一种面向行为克隆的示范主动采样方法。行为克隆是一类典型的模仿学习算法,该算法在自动驾驶领域得到了广泛的关注。现有的行为克隆算法为了训练有效的策略,需要专家提供大量的示范。然而在实际任务中,提供示范的代价是高昂的,高昂的代价限制了行为克隆方法的应用。主动学习通过挑选最有价值的样本进行标注可以有效的减少标注代价。本发明利用主动学习,从状态候选集中挑选最具价值的状态作为起始状态,然后让专家从起始状态开始做示范,并返回固定长度的轨迹,可以使得示范的价值最大,从而有效的减少示范的代价。
技术领域
本发明属于机器学习领域,具体涉及一种面向行为克隆的示范主动采样方法。
背景技术
深度强化学习是近年来非常热门的机器学习技术,在围棋、游戏、商业领域都取得了重要的进展。但是当任务的状态空间庞大时,深度强化学习的环境探索效率比较低下,导致训练策略的时间太久。模仿学习通过从专家的示范中学习策略,可以有效的解决这一问题。行为克隆是一类经典的模仿学习算法,该方法将专家的示范构成训练集,然后直接用监督学习从中学得策略。目前,行为克隆方法在自动驾驶领域得到了广泛的关注,无论是电动汽车公司特斯拉还是自动驾驶公司Waymo,都在尝试用行为克隆训练自动驾驶的智能体。然而,行为克隆算法通常假设可以获得大量的专家示范,但是在实际任务中,获得专家示范的代价通常是比较高昂的。以自动驾驶为例,专家在提供驾驶数据时,不仅要付出时间上的代价,还要面临安全上的风险。主动学习中通过挑选最具价值的样本向专家查询可以有效的降低标注的代价。而现有的基于主动学习的模仿学习算法都是挑选一个状态,然后让专家示范一个动作,这种查询方式在现实任务中不够实用,更实用的查询方式是让专家以提供的状态为起始状态,提供固定长度的示范轨迹。
发明内容
发明目的:为了克服现实任务中应用行为克隆时,获取示范代价高昂的问题,本发明提供一种面向行为克隆的示范主动采样方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种面向行为克隆的示范主动采样方法,其特征在于:包括以下步骤:
(一)要求专家提供少量示范轨迹,以初始化示范集合D。
(二)从示范集合D中用行为克隆算法训练策略。
(三)如果训练得到的策略达到要求则结束,否则转向步骤(四)。
(四)利用训练得到的策略计算状态候选集每个状态的贡献值,挑选出贡献值最大的状态。
(五)将(四)所得到的状态向专家查询,专家以提供的状态作为起始状态,提供固定长度的示范轨迹。
(六)将示范轨迹加入示范集合中,转向步骤(二)。
进一步的,所述步骤(一)初始化示范集合的具体方法:
首先随机从状态空间中挑选少量的状态构成状态集合,然后专家以状态集合中的每一个状态作为起始状态,分别提供固定长度的示范轨迹。具体地说,假设状态集中有m个状态,每次从状态集中取出一个状态,并标记为初始状态s1,轨迹的长度设定为L,那么专家从s1开始决策,并返回一条形如{(s1,a1),(s2,a2),...,(sL,aL)}的示范轨迹,其中ai为专家在状态si所提供的动作,si+1为si的下一状态。将所有示范轨迹中的所有状态-动作对用作对示范集合D的初始化,即示范集合是由状态-动作对构成的集合。
进一步的,所述步骤(二)用行为克隆算法训练策略的具体方法为:
设示范集合D由nl个状态-动作对构成,所述行为克隆算法的目标函数定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110248762.3/2.html,转载请声明来源钻瓜专利网。