[发明专利]一种基于多维融合特征的视频群体人物定位检测方法有效

申请号：	201910235608.5	申请日：	2019-03-26
公开（公告）号：	CN109903339B	公开（公告）日：	2021-03-05
发明（设计）人：	陈志;掌静;岳文静;周传;陈璐;刘玲;任杰;周松颖;江婧	申请（专利权）人：	南京邮电大学
主分类号：	G06T7/73	分类号：	G06T7/73;G06K9/00
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	刘珊珊
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多维融合特征视频群体人物定位检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多维融合特征的视频群体人物定位检测方法，其特征在于，包括顺序执行的步骤(1)至(8)：

(1)输入作为训练样本的视频，视频中的物体种类及位置已知，对视频逐帧进行大小归一处理，将每一帧视频帧的尺寸统一缩放为H×W大小，H表示视频帧高度，W表示视频帧宽度；

(2)使用InceptionV3模型逐帧对经过步骤(1)处理后的视频进行特征抽取，得到视频各个层级的图像特征，组成多层级视频特征图F'，F'＝{F_i'|i＝1,2,…,numF}，F_i'表示第i层图像特征，numF表示提取出的视频图像特征总层数，F₁'表示底层图像特征，F′_numF表示顶层图像特征；

(3)对抽取到的多层级视频特征图F'进行特征融合操作，包括依次执行的步骤(3-1)至(3-4)：

(3-1)增加一条从F′_numF到F₁'的融合通道，对多层级视频特征图F'进行从顶层特征向下的特征融合，获得自顶向下视频特征图F^top-down；特征融合的方法为：自从顶层图像特征F′_numF开始，向下遍历每一层图像特征F_i'，对F_i'依次进行卷积核为conv₁、步长为stride₁的卷积操作和upSample₁倍上采样操作，得到F_i^top-down，最终得到F^top-down＝{F_i^top-down|i＝1,2,…,numF}；

(3-2)增加一条从F₁^top-down到的融合通道，对F^top-down进行从底层特征向上的特征融合，获得自底向上视频特征图F^bottom-up，F^bottom-up＝{F_i^bottom-up|i＝1,2,…,numF}，F_i^bottom-up表示自底向上视频特征图F^bottom-up的第i层图像特征；特征融合的方法为：

a.初始化i＝1；

b.计算F_i^bottom-up＝F_i^top-down，对F_i^bottom-up进行卷积核为conv₂、步长为stride₂的卷积操作，得到结果计算

c.更新i＝i+1；

d.循环执行步骤b至c，直至i＞numF，循环结束后，得到：

F^bottom-up＝{F_i^bottom-up|i＝1,2,…,numF}

(3-3)对自底向上视频特征图F^bottom-up中的每一层图像特征F_i^bottom-up进行卷积核为conv₃、步长为stride₃的卷积操作，得到的结果记为F_i，得到的所有F_i构成多维融合特征图F，F＝{F_i|i＝1,2,…,numF}；

(4)将多维融合特征图F输入区域候选网络，输出K个检测目标，获得目标位置集合Box＝{Box_j|j＝1,2,…,K}和对应的人物概率集合Person＝{Person_j|j＝1,2,…,K}，所述Box_j表示第j个检测目标的位置，Person_j表示第j个检测目标为人物的概率，Person_j∈[0,1]，Person_j的取值越大表示该检测目标为人物的可能性越大；

(5)根据Person对检测目标进行分类，设置K个检测目标的真实类别为PPerson＝{PPerson_j|j＝1,2,…,K}，计算群体人物类别损失函数Loss_cls，计算公式为其中，PPerson_j表示第j个检测目标的真实类别，PPerson_j取值为0或1，PPerson_j＝0表示该检测目标不是人物，PPerson_j＝1表示该检测目标为人物；

(6)根据Box和Person回归目标位置，设置K个检测目标的真实位置为：

BBox＝{BBox_j|j＝1,2,…,K}

计算群体人物位置损失函数为：

其中，BBox_j表示第j个检测目标的真实位置；

(7)计算群体人物定位检测损失值Loss，计算公式为Loss＝Loss_cls+λLoss_loc，若Loss≤Loss_max，则区域候选网络已经训练完毕，输出区域候选网络参数，执行步骤(8)；若Loss＞Loss_max，则更新区域候选网络每一层的参数然后返回步骤(4)，重新进行人物检测；Loss_max是预设的人群定位检测最大损失值，λ是位置回归和人物分类任务的平衡因子，α是随机梯度下降法的学习率，表示群体人物定位检测损失函数的偏导数；

(8)重新获取待检测的视频，对待检测视频依次进行归一化处理、特征抽取和特征融合，得到待检测的视频的多维融合特征图F_new，将F_new输入步骤(7)训练好的区域候选网络，得到待检测视频中的群体人物定位检测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910235608.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于改进ORB算法的移动机器人定位方法
下一篇：一种车载机器人视觉处理方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多维融合特征的视频群体人物定位检测方法有效

专利文献下载