[发明专利]一种基于多维融合特征的视频群体人物定位检测方法有效

专利信息
申请号: 201910235608.5 申请日: 2019-03-26
公开(公告)号: CN109903339B 公开(公告)日: 2021-03-05
发明(设计)人: 陈志;掌静;岳文静;周传;陈璐;刘玲;任杰;周松颖;江婧 申请(专利权)人: 南京邮电大学
主分类号: G06T7/73 分类号: G06T7/73;G06K9/00
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 刘珊珊
地址: 210003 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 多维 融合 特征 视频 群体 人物 定位 检测 方法
【权利要求书】:

1.一种基于多维融合特征的视频群体人物定位检测方法,其特征在于,包括顺序执行的步骤(1)至(8):

(1)输入作为训练样本的视频,视频中的物体种类及位置已知,对视频逐帧进行大小归一处理,将每一帧视频帧的尺寸统一缩放为H×W大小,H表示视频帧高度,W表示视频帧宽度;

(2)使用InceptionV3模型逐帧对经过步骤(1)处理后的视频进行特征抽取,得到视频各个层级的图像特征,组成多层级视频特征图F',F'={Fi'|i=1,2,…,numF},Fi'表示第i层图像特征,numF表示提取出的视频图像特征总层数,F1'表示底层图像特征,F′numF表示顶层图像特征;

(3)对抽取到的多层级视频特征图F'进行特征融合操作,包括依次执行的步骤(3-1)至(3-4):

(3-1)增加一条从F′numF到F1'的融合通道,对多层级视频特征图F'进行从顶层特征向下的特征融合,获得自顶向下视频特征图Ftop-down;特征融合的方法为:自从顶层图像特征F′numF开始,向下遍历每一层图像特征Fi',对Fi'依次进行卷积核为conv1、步长为stride1的卷积操作和upSample1倍上采样操作,得到Fitop-down,最终得到Ftop-down={Fitop-down|i=1,2,…,numF};

(3-2)增加一条从F1top-down到的融合通道,对Ftop-down进行从底层特征向上的特征融合,获得自底向上视频特征图Fbottom-up,Fbottom-up={Fibottom-up|i=1,2,…,numF},Fibottom-up表示自底向上视频特征图Fbottom-up的第i层图像特征;特征融合的方法为:

a.初始化i=1;

b.计算Fibottom-up=Fitop-down,对Fibottom-up进行卷积核为conv2、步长为stride2的卷积操作,得到结果计算

c.更新i=i+1;

d.循环执行步骤b至c,直至i>numF,循环结束后,得到:

Fbottom-up={Fibottom-up|i=1,2,…,numF}

(3-3)对自底向上视频特征图Fbottom-up中的每一层图像特征Fibottom-up进行卷积核为conv3、步长为stride3的卷积操作,得到的结果记为Fi,得到的所有Fi构成多维融合特征图F,F={Fi|i=1,2,…,numF};

(4)将多维融合特征图F输入区域候选网络,输出K个检测目标,获得目标位置集合Box={Boxj|j=1,2,…,K}和对应的人物概率集合Person={Personj|j=1,2,…,K},所述Boxj表示第j个检测目标的位置,Personj表示第j个检测目标为人物的概率,Personj∈[0,1],Personj的取值越大表示该检测目标为人物的可能性越大;

(5)根据Person对检测目标进行分类,设置K个检测目标的真实类别为PPerson={PPersonj|j=1,2,…,K},计算群体人物类别损失函数Losscls,计算公式为其中,PPersonj表示第j个检测目标的真实类别,PPersonj取值为0或1,PPersonj=0表示该检测目标不是人物,PPersonj=1表示该检测目标为人物;

(6)根据Box和Person回归目标位置,设置K个检测目标的真实位置为:

BBox={BBoxj|j=1,2,…,K}

计算群体人物位置损失函数为:

其中,BBoxj表示第j个检测目标的真实位置;

(7)计算群体人物定位检测损失值Loss,计算公式为Loss=Losscls+λLossloc,若Loss≤Lossmax,则区域候选网络已经训练完毕,输出区域候选网络参数,执行步骤(8);若Loss>Lossmax,则更新区域候选网络每一层的参数然后返回步骤(4),重新进行人物检测;Lossmax是预设的人群定位检测最大损失值,λ是位置回归和人物分类任务的平衡因子,α是随机梯度下降法的学习率,表示群体人物定位检测损失函数的偏导数;

(8)重新获取待检测的视频,对待检测视频依次进行归一化处理、特征抽取和特征融合,得到待检测的视频的多维融合特征图Fnew,将Fnew输入步骤(7)训练好的区域候选网络,得到待检测视频中的群体人物定位检测结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910235608.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top