[发明专利]一种基于双向长短期记忆神经网络的目标跟踪方法有效

专利信息
申请号: 201910656757.9 申请日: 2019-07-19
公开(公告)号: CN110390294B 公开(公告)日: 2021-03-09
发明(设计)人: 史殿习;潘晨;管乃洋;夏雨生 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司: 长沙中科启明知识产权代理事务所(普通合伙) 43226 代理人: 任合明
地址: 410003 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于双向长短期记忆神经网络的目标跟踪方法,目的是提高目标识别准确率。技术方案是先构建由特征提取模块、目标检测模块、特征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,采用边框回归方法对LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数。最后采用目标跟踪系统对连续图像进行特征提取、目标检测,识别目标区域,训练后的LSTMf网络分支和训练后的LSTMb网络分支分别处理正向排序及反向排序的候选区域,目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域。本发明适合处理具有连续性的视频数据序列,目标跟踪准确率高。
搜索关键词: 一种 基于 双向 短期 记忆 神经网络 目标 跟踪 方法
【主权项】:
1.一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于包括以下步骤:第一步:构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络分支和LSTMb反向长短时记忆循环网络分支、目标区域计算器构成,LSTMf正向长短时记忆循环网络简称LSTMf网络,LSTMb反向长短时记忆循环网络简称LSTMb网络;特征提取模块为卷积神经网络,此网络由卷积层、池化层和全连接层组成;特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得到抽象特征图集合F(I);I={i1,i2,…,it,...,in},共有n张图像,1≤t≤n,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it‑1的下一帧图像;F(I)={F(i1),F(i2),…,F(it),…,F(in)},F(it)为it的抽象特征图;目标检测模块是YOLO检测网络,目标检测模块从特征提取模块接收抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C,C=(c1,c2...,.ct,....,cn),ct为it上的最佳候选目标区域;特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上下文特征的目标区域dt;n个带有上下文特征的目标区域构成目标区域集合D,D=(d1,d2,...,dt,...,dn);LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域lf;LSTMb,网络分支接收来自目标区域集合D中倒序的连续多个目标区域,输出目标预测区域lb;LSTMf网络分支和LSTMb网络分支结构相同,都包含三个全连接层,第一层为输入层,第二层为隐含层,第三层为输出层;目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域L;第二步:准备LSTMf网络分支和LSTMb网络分支需要的训练数据,方法为:2.1选择来自OTB100中的20个图像集即OTB20,作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,OTB100指Online Tracking Benchmark Dateset中的100个图像集合,OTB20包含I1,I2,…,Im,…,I2020个图像集合以及对应的图像中真实目标区域的回归框集合G1,G2,…,Gm,...,G20,m为整数,1≤m≤20;Im中的图片具有时间上的连续性,表示Im在第j张即j时刻的图片,1≤j≤n,n是Im中图片的张数即Im共有n个时刻;G={g1,g2,...,gj,...,gn},gj表示Im中第j时刻图片的真实目标区域回归框,为包含四个值的一维向量,表示目标区域回归框中心相对于图像边界的坐标值,表示目标区域的宽度和高度,四个值均为标量,四个值表示出了一个矩形的目标区域;2.2特征提取模块对I1,I2,...,Im,...,I20中的图像进行特征提取:卷积层对Im中图像通过卷积方式进行特征提取,池化层对前一层的输出进行最大特征提取,全连接层将前一层的输出特征汇总,得到I1,I2,...,Im,...,I20相应的特征图集合序列F(I1),F(I2),...,F(Im),...,F(I20),将F(I1),F(I2),...,F(Im),...,F(I20)发送到目标检测模块,表示图像集Im中第j张图片对应的抽象特征图;2.3目标检测模块对F(I1),F(I2),...,F(Im),...,F(I20)中的抽象特征图做检测,得到最佳目标候选区域集合序列C(I1),C(I2),...,C(Im),...,C(I20),方法为:2.3.1初始化m=1;2.3.2目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列2.3.3目标检测模块采用非极大抑制方法即NMS方法计算中的最佳候选区域,得到最佳候选区域集合表示图像集Im中第j张图像上的最佳候选区域;2.3.4令m=m+1,如果m≤20,转2.2.2步;如果m>20,说明得到了最佳目标候选区域序列C(I1),C(I2),...,C(Im),...,C(I20),转步骤2.4;2.4特征拼接模块将C(I1),C(I2),...,C(Im),...,C(I20)中的最佳目标候选区域与F(I1),F(I2),...,F(Im),...,F(I20)中的最佳候选区域拼接,得到带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20,将D1,D2,...,Dm,...,D20即20个目标候选区域集合发送给LSTMf网络分支和LSTMb网络分支,转第三步;第三步:使用边框回归方法对输入为D1,D2,...,Dm,...,D20的LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数,方法如下:3.1初始化权重参数,将LSTMf网络分支权重参数集合中所有元素值都初始化为[0,1]之间的随机数;将LSTMb网络分支权重参数集合中所有元素值都初始化为[0,1]之间的随机数;表示LSTMf网络分支输入层的权重参数,表示LSTMf网络分支隐含层的权重参数,表示LSTMf网络分支输出层的权重参数;表示LSTMb网络分支输入层的权重参数,表示LSTMb网络分支隐含层的权重参数,表示LSTMb网络分支输出层的权重参数;3.2设置网络训练参数:令网络模型学习率leamingRate=0.00001,批处理尺寸batchsize=1,网络步长numstep为在范围[4,9]内的正整数;3.3迭代计算LSTMf网络分支输出和LSTMb网络分支输出的差距及两分支网络输出均值与真实目标区域差距,得到损失值,最小化损失值并更新网络参数,直到满足迭代次数要求,得到权重参数,具体方法如下:3.3.1初始化训练迭代参数itretation=1;3.3.2如果itretation≤迭代阈值K,K是[1,100]内的整数,执行3.3.3步;否则将训练后的做为LSTMf网络分支的权重参数集合,将训练后的作为LSTMb网络分支的权重参数集合,转第四步。3.3.3 LSTMf网络分支接收D1,D2,...,Dm,...,D20处理正向排序的带有上文特征的候选区域,得到正向预测的目标区域回归框初值集合LSTMb网络分支接收集合D1,D2,...,Dm,...,D20,处理反向排序的带有上文特征的候选区域,得到反向预测的目标区域回归框初值集合计算LSTMf网络分支和LSTMb网络分支输出回归框初值之间的差距,以及两个网络分支均值与真实目标区域回归框的差距,得到损失值,使用优化算法缩小损失值,更新一次网络权重,具体方法如下:3.3.3.1初始化m=1;3.3.3.2 LSTMf网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合LSTMb网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合具体方法如下:3.3.3.2.1初始化t=0;3.3.3.2.2 LSTMf网络分支从Dm中取出连续numstep个候选区域将从开始到为止的numstep个候选区域依次输入到LSTMf网络分支中,得到LSTMf在t+numstep时刻对目标区域的预测回归框初值放到集合中;为包含四个值的一维向量,表示正向预测目标区域回归框中心相对于图像边界的坐标值,表示正向预测目标区域回归框的宽度,表示正向预测目标区域回归框的高度,四个值表示一个矩形的目标区域;3.3.3.2.3 LSTMb网络分支将反转,得到将从dt+numstep开始到dt+1为止的numstep个候选区域依次输入到LSTMb分支中,得到网络LSTMb网络分支在t+numstep时刻对目标区域的预测回归框初值放到集合中,为一维向量;表示反向预测目标区域回归框中心相对于图像边界的坐标值,表示反向预测目标区域回归框的宽度,表示反向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域;3.3.3.2.4令t=t+1,如果t≤n‑numstep,转3.3.3.2.2步;否则说明已经根据Dm中候选区域经过LSTMf网络分支得到目标区域回归框初始集合同时经过LSTMb网络分支目标区域回归框初始集合执行第3.3.3.2.5步;3.3.3.2.5令加入到中;令加入到得到正向目标区域回归框预测初值集合和反向目标区域回归框预测初值集合3.3.3.3计算误差值Loss,令其中,体现了正向预测回归框初值与反向预测回归框初值的平均预测值,为j时刻目标区域回归框的真值,MSE(·)为计算两个输入的均方误差的函数,3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数;3.3.3.5令m=m+1,如果m≤20,转步骤3.3.3.2;否则,说明D1,D2,...,Dm,...,D20都经过了LSTMf网络分支和LSTMb网络分支处理,集合中的权重参数值都得到一次更新,转步骤3.3.2;第四步:目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测,识别目标区域,方法是:4.1特征提取模块接收来自图像集合I中的n张连续图像,对图像进行特征提取,得到抽象特征图集合F(I);I={i1,i2,...,it,...,in},F(I)={f1,f2,...,fj,...,fn},fi是维度为1×4096的向量;4.2目标检测模块接收来自特征提取模块的F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C(I),C(I)={c1,c2,...,cj,...,cn},C(I)中包含n张抽象特征图上的目标区域,方法为:4.2.1目标检测模块对F(I)={f1,f2,...,fj,...,fn}中的特征图进行目标检测,得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn);4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合P(f1),P(f2),...,P(fj),...,P(fn)中的最佳候选区域,得到最佳候选区域集合C(I)={c1,c2,...,cj,...,cn},cj表示图像集I中第j张图像上的最佳候选区域;4.3特征拼接模块将F(I)中的抽象特征图和C(I)中的最佳目标候选区域拼接,得到带有上下文特征的目标区域集合D,D={d1,d2,...,dt,...,dn};4.4 LSTMf网络载入训练后的Wf中的网络权重参数,LSTMb网络分支载入训练后的Wb中的网络权重参数;4.5初始化t=1;4.6 LSTMf网络分支执行4.6.1步,处理D的正向序列输入得到候选区域中的目标区域回归框;同时LSTMb网络分支执行4.6.2步,处理D的反向序列输入得到候选区域中的目标区域回归框:4.6.1 LSTMf网络分支接收集合D,将D中的连续numstep个候选区域dt,dt+1,...,dt+numstep‑1,从dt到dt+numstep‑1依次输入到LSTMf网络分支中,得到LSTMf在t+numstep‑1时刻对目标区域的预测回归框放到集合Lf中;为包含四个值的一维向量,表示目标区域回归框中心相对于图像边界的坐标值,表示目标区域回归框的宽度和高度;4.6.2 LSTMb网络分支接收集合D,将dt,dt+1,...,dt+numstep‑1反转,得到序列dt+numstep‑1,dt+4,…,dt,将从dt+numstep‑1开始到dt为止的numstep个候选区域依次输入到LSTMb分支中,得到LSTMb网络分支在t+numstep‑1时刻对目标区域回归框的预测放到Lb中;为一维向量,表示目标区域左上角的坐标值,表示目标区域的宽度和高度四个值均为标量;4.7目标区域计算器计算最终目标区域,得到目标区域集合L。计算器计算表示最终预测目标区域回归框中心点横坐标值,表示最终预测目标区域回归框中心点横坐标值;表示最终预测目标区域回归框的宽度,ht+numstep‑1表示最终预测目标区域回归框的高度;令lt+numstep‑1表示目标区域在I中t+numstep‑1时刻图像中的最终预测,lt+numstep‑1=[xt+numstep‑1,yt+numstep‑1,wt+numstep‑1,ht+numstep‑1],将lt+numstep‑1加入到集合L中;4.8令t=t+1,如果t≤n‑numstep,转4.6步;否则说明预测出图像集合I中从t+numstep‑1时刻到n时刻的目标区域回归框,得到集合L,L=lnumstep,lnumstep+1,...,ln;执行第4.9步;4.9令l1,l2,...,lnumstep‑1=lnumstep,将l1,l2,...,lnumstep‑1加入到L中,得到包含所有时刻的最终目标区域回归框预测的集合L,L=l1,l2,...,ln,将L中的目标区域回归框可视化在图像集合I中对应的图像上后,图像逐帧播放,显示目标在每帧中都被矩形框框出,即显示出目标跟踪的效果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910656757.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top