首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于强化学习的目标追踪的训练方法、追踪方法有效

申请号：	202110345152.5	申请日：	2021-03-31
公开（公告）号：	CN113139655B	公开（公告）日：	2022-08-19
发明（设计）人：	于子毅;朱占星;贾政轩	申请（专利权）人：	北京大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06F17/15
代理公司：	北京正理专利代理有限公司 11257	代理人：	张雪梅
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习目标追踪训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的目标追踪训练方法，其特征在于，包括：

S1、构建状态价值函数估计器网络和策略网络结构；

S2、初始化状态价值函数估计器网络和策略网络结构；

S3、利用策略网络和环境交互生成状态数据、动作数据，并计算奖励回报；

所述奖励回报的计算式为：

r(s_t,a_t)＝func1(dis_t)-func1(dis_t+1)+Angle_t+1-Angle_t

式中，dis_t、dis_t+1分别表示在t、t+1时刻追踪方和被追踪方的相对距离，Angle_t、Angle_t+1分别表示在t、t+1时刻的追踪方和被追踪方的速度方向的相对角度；func1是相对距离的分段线性函数；

S4、利用所述状态数据、动作数据和增加正则项的损失函数训练所述策略网络和状态价值函数估计器网络，用训练产生的参数更新策略网络和状态价值函数估计器网络；

S5、利用更新以后的策略网络在环境中做测试，如果追踪方和被追踪方的相对距离能到第一限定距离以内，则进行S6，否则重复S3-S4直到追踪距离到第一限定距离以内；

S6、保存当前的策略网络的策略为追踪方前期策略，并固定该策略；

S7、采集追踪方和被追踪方的相对距离在阈值距离以内的状态数据和动作数据作为第二数据；

S8、利用所述第二数据在当前训练基础上继续训练策略网络和状态价值函数估计器网络；

S9、测试策略网络，如果追踪方和被追踪方的相对距离降到第二限定距离以内，则保存当前的策略网络的策略为追踪方后期策略，否则继续重复S7-S8；

其中，第二限定距离第一限定距离阈值距离初始距离；

所述增加正则项的损失函数表示为：

loss_actor＝ζ₁|a_i-a_i-1|+ζ₂|2a_i-a_i-1-a_i+1|+ζ₃|a₀-0|+ppo_actor_loss

a_i表示在时间步i网络输出的加速度，|a_i-a_i-1|表示加速度的一阶导数，|2a_i–a_i-1–a_i+1|表示加速度的二阶导数，|a₀-0|表示初始的加速度；ppo_actor_loss为传统ppo算法的损失函数；ζ₁，ζ₂，ζ₃分别表示对加速度的一阶导数的平滑程度，加速度的二阶导数的平滑程度，初始加速度的平滑程度，平滑程度的值越大，平滑程度越大。

2.根据权利要求1所述的方法，其特征在于，所述状态价值函数估计器网络结构和策略网络结构，均使用三层全连接结构，并在每一个全连接层的输出添加数据优化层。

3.根据权利要求1所述的方法，其特征在于，

所述状态价值函数估计器网络结构的输入是当前的状态数据，输出是对应的价值函数；

所述策略网络结构的输入是当前的状态数据，输出是动作数据。

4.根据权利要求1所述的方法，其特征在于，所述状态数据包括：追踪方和被追踪方在三维空间中的相对位置和相对速度，追踪方目前的海拔高度、声速、大气密度，追踪方和被追踪方的相对速度偏角。

5.根据权利要求1所述的方法，其特征在于，所述动作数据为追踪方的垂直于当前速度的平面上的加速度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110345152.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种利用液氢冷量的燃料电池动力的冷藏车系统
下一篇：一种提高热基镀锌带钢表面质量的方法

同类专利

专利分类

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top