[发明专利]一种面向行为克隆的示范主动采样方法在审
申请号: | 202110248762.3 | 申请日: | 2021-03-08 |
公开(公告)号: | CN112906868A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 黄圣君;黄文宇 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 秦秋星 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 行为 克隆 示范 主动 采样 方法 | ||
1.一种面向行为克隆的示范主动采样方法,其特征在于:包括以下步骤:
步骤1:专家提供若干个的示范轨迹,用作对示范集合D的初始化;
步骤2:从示范集合D中用行为克隆算法训练策略;
步骤3:如果策略的性能达到要求则结束,否则转向步骤4;
步骤4:计算状态候选集每个状态的贡献值,挑选出贡献值最大的状态;
步骤5:将步骤4所得到的贡献值最大的状态向专家查询,专家以提供的状态作为起始状态,提供固定长度的示范轨迹,将示范轨迹加入示范集合D中,转向步骤2。
2.根据权利要求1所述一种面向行为克隆的示范主动采样方法,其特征在于:所述步骤1初始化示范集合的具体方法:
首先随机从状态空间中挑选m个状态构成状态集合,然后专家以集合中的每一个状态作为初始状态s1,分别提供固定长度为L的示范轨迹{(s1,a1),(s2,a2),...,(sL,aL)},其中ai为专家在状态si所做出的动作,si+1为si的下一状态,i=1,…,L;将所有示范轨迹中的所有状态-动作对用作对示范集合D的初始化,即示范集合D是由状态-动作对构成的集合。
3.根据权利要求1所述一种面向行为克隆的示范主动采样方法,其特征在于:所述步骤2用行为克隆算法训练策略的具体方法为:
设示范集合D由nl个状态-动作对构成,所述行为克隆算法的目标函数定义为:
其中ai是对于状态si专家所做出的动作,π(si)是智能体所做出的动作,l(.)是损失函数;通过最小化目标函数即可学得策略π。
4.根据权利要求1所述一种面向行为克隆的示范主动采样方法,其特征在于:所述步骤4计算每个状态的贡献值的具体方法为:
以当前智能体的策略对某状态的不确定度作为该状态的贡献值,若不确定度越大,则视为贡献值越大;此用动作分布的标准差衡量不确定度,即:
uncertainty(s)=std(π(.|s))
其中π(.|s)表示智能体对于状态s,所做动作的概率分布。
5.根据权利要求1所述一种面向行为克隆的示范主动采样方法,其特征在于:所述步骤4计算每个状态的贡献值的具体方法为:
以某状态与示范集合中所有状态的不相似度作为该状态的贡献值,若不相似度越高,则视为贡献值越大;用动作的相似度作为状态相似度的度量,则状态s的不相似度按如下方式计算:
其中,nl表示示范集合中状态的数量,π(.|si),π(.|s)分别表示智能体对于状态si和s所做动作的概率分布,W2表示2-Wasserstein距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110248762.3/1.html,转载请声明来源钻瓜专利网。