[发明专利]基于视频嵌入的视频人脸检索方法及系统有效
| 申请号: | 202011246007.3 | 申请日: | 2020-11-10 |
| 公开(公告)号: | CN112528077B | 公开(公告)日: | 2022-12-16 |
| 发明(设计)人: | 李振华;柳博方 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/732;G06V10/80;G06V10/74;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250061 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 视频 嵌入 检索 方法 系统 | ||
1.基于视频嵌入的视频人脸检索方法,其特征是,包括:
获取多个不同人的视频图片序列,对视频图片序列处理为统一大小;
利用卷积神经网络对所述视频图片序列提取单帧视频特征,并对相邻帧的卷积神经网络提取的特征的中间特征进行部分特征的时序偏移,获得序列特征;所述序列特征包括单帧视频特征和中间特征的时序偏移;
对相邻帧的卷积神经网络提取的特征的中间特征进行部分特征的时序偏移,具体包括:
式中表示卷积操作,yshift∈RC×T×H×W表示中间特征x∈RC×T×H×W经过卷积核W∈RC×C×3×1×1卷积的输出,T表示中间特征图的时序维度大小,C表示中间特征图的特征通道维度大小,H表示中间特征图的高,W表示中间特征图的宽;其中卷积核是固定大小的3×1×1,时序维度的固定参数表示为:
式中ci表示第i个通道上的卷积核,WT表示时序维度上的卷积核权重;
对得到的序列特征进行融合提取关键帧的特征信息,具体为:
进行融合时,首先采用逐元素相加的方式将每一帧图像的最后的嵌入特征进行相加,然后对求和后的特征采用全连接层进行降低维度,对降低维度后的特征通过全连接层升高维度,并获取注意力的权重,根据上述得到的注意力的权重与每帧图像的嵌入特征进行相乘再求和即可得到最后的一段视频的最终嵌入特征;
对提取的每个人的图片序列的最终嵌入特征采用相似性度量损失函数进行训练,然后根据该损失函数对神经网络模型参数进行优化求解;
检索时基于训练出的神经网络的模型,对视频进行一个嵌入到设定维特征的提取,之后对提取后特征与要检索的视频特征进行一个相似度的计算,选择相似度得分最高的几个特征,进而返回该特征所代表的视频片段;
多个不同人的视频图片序列中,每个人图片序列中包含从该人视频图片序列中随机选出的设定张静态图片,每个人包含两个图片序列,以此来构成正例对,不同的人的图片序列构成反例对;
损失函数公式如下:
式中Pi和Ni表示一个mini-batch中正例集合和反例集合,即一个mini-batch中属于同一类别的集合和两两不属于同一个类别的集合,Sik表示正例集合和反例集合中两个特征向量的余弦相似度,λ表示相似度的阈值,α和β表示正例集合的相似性系数和反例集合的相似性系数,m表示mini-batch的大小,LMS表示一个mini-batch中的所有损失的均值,训练模型使LMS最小。
2.如权利要求1所述的基于视频嵌入的视频人脸检索方法,其特征是,利用卷积神经网络对所述视频图片序列提取单帧视频特征,首先对视频数据进行解码处理,将一段视频变成一系列静态图像,然后采用卷积神经网络对静态图像提取特征,包括卷积、批量归一化、池化以及非线性激活函数操作。
3.如权利要求1所述的基于视频嵌入的视频人脸检索方法,其特征是,当是同一个人的映射的特征的余弦相似度就表示为正例,不同人的映射的特征的余弦相似度表示的为反例,然后根据损失函数对卷积神经网络的模型参数进行优化求解,通过该损失函数对卷积神经网络的模型进行训练,用训练完成的模型作为视频特征的提取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011246007.3/1.html,转载请声明来源钻瓜专利网。





