[发明专利]一种基于多维融合特征的视频群体人物定位检测方法有效
申请号: | 201910235608.5 | 申请日: | 2019-03-26 |
公开(公告)号: | CN109903339B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 陈志;掌静;岳文静;周传;陈璐;刘玲;任杰;周松颖;江婧 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06K9/00 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 刘珊珊 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多维 融合 特征 视频 群体 人物 定位 检测 方法 | ||
1.一种基于多维融合特征的视频群体人物定位检测方法,其特征在于,包括顺序执行的步骤(1)至(8):
(1)输入作为训练样本的视频,视频中的物体种类及位置已知,对视频逐帧进行大小归一处理,将每一帧视频帧的尺寸统一缩放为H×W大小,H表示视频帧高度,W表示视频帧宽度;
(2)使用InceptionV3模型逐帧对经过步骤(1)处理后的视频进行特征抽取,得到视频各个层级的图像特征,组成多层级视频特征图F',F'={Fi'|i=1,2,…,numF},Fi'表示第i层图像特征,numF表示提取出的视频图像特征总层数,F1'表示底层图像特征,F′numF表示顶层图像特征;
(3)对抽取到的多层级视频特征图F'进行特征融合操作,包括依次执行的步骤(3-1)至(3-4):
(3-1)增加一条从F′numF到F1'的融合通道,对多层级视频特征图F'进行从顶层特征向下的特征融合,获得自顶向下视频特征图Ftop-down;特征融合的方法为:自从顶层图像特征F′numF开始,向下遍历每一层图像特征Fi',对Fi'依次进行卷积核为conv1、步长为stride1的卷积操作和upSample1倍上采样操作,得到Fitop-down,最终得到Ftop-down={Fitop-down|i=1,2,…,numF};
(3-2)增加一条从F1top-down到的融合通道,对Ftop-down进行从底层特征向上的特征融合,获得自底向上视频特征图Fbottom-up,Fbottom-up={Fibottom-up|i=1,2,…,numF},Fibottom-up表示自底向上视频特征图Fbottom-up的第i层图像特征;特征融合的方法为:
a.初始化i=1;
b.计算Fibottom-up=Fitop-down,对Fibottom-up进行卷积核为conv2、步长为stride2的卷积操作,得到结果计算
c.更新i=i+1;
d.循环执行步骤b至c,直至i>numF,循环结束后,得到:
Fbottom-up={Fibottom-up|i=1,2,…,numF}
(3-3)对自底向上视频特征图Fbottom-up中的每一层图像特征Fibottom-up进行卷积核为conv3、步长为stride3的卷积操作,得到的结果记为Fi,得到的所有Fi构成多维融合特征图F,F={Fi|i=1,2,…,numF};
(4)将多维融合特征图F输入区域候选网络,输出K个检测目标,获得目标位置集合Box={Boxj|j=1,2,…,K}和对应的人物概率集合Person={Personj|j=1,2,…,K},所述Boxj表示第j个检测目标的位置,Personj表示第j个检测目标为人物的概率,Personj∈[0,1],Personj的取值越大表示该检测目标为人物的可能性越大;
(5)根据Person对检测目标进行分类,设置K个检测目标的真实类别为PPerson={PPersonj|j=1,2,…,K},计算群体人物类别损失函数Losscls,计算公式为其中,PPersonj表示第j个检测目标的真实类别,PPersonj取值为0或1,PPersonj=0表示该检测目标不是人物,PPersonj=1表示该检测目标为人物;
(6)根据Box和Person回归目标位置,设置K个检测目标的真实位置为:
BBox={BBoxj|j=1,2,…,K}
计算群体人物位置损失函数为:
其中,BBoxj表示第j个检测目标的真实位置;
(7)计算群体人物定位检测损失值Loss,计算公式为Loss=Losscls+λLossloc,若Loss≤Lossmax,则区域候选网络已经训练完毕,输出区域候选网络参数,执行步骤(8);若Loss>Lossmax,则更新区域候选网络每一层的参数然后返回步骤(4),重新进行人物检测;Lossmax是预设的人群定位检测最大损失值,λ是位置回归和人物分类任务的平衡因子,α是随机梯度下降法的学习率,表示群体人物定位检测损失函数的偏导数;
(8)重新获取待检测的视频,对待检测视频依次进行归一化处理、特征抽取和特征融合,得到待检测的视频的多维融合特征图Fnew,将Fnew输入步骤(7)训练好的区域候选网络,得到待检测视频中的群体人物定位检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910235608.5/1.html,转载请声明来源钻瓜专利网。