[发明专利]一种深度学习和哈希编码的视频检索方法有效
申请号: | 201811632349.1 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109783691B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 孔彦;伭剑辉;赵玉军;王黎明 | 申请(专利权)人: | 北京远鉴信息技术有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/732;G06K9/62 |
代理公司: | 北京中海智圣知识产权代理有限公司 11282 | 代理人: | 杨树芬 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 编码 视频 检索 方法 | ||
1.一种深度学习和哈希编码的视频检索方法,其特征在于,包括以下步骤:
步骤1、将视频文件解码成视频帧;
步骤2、基于深度学习提取视频帧特征,将卷积神经网络CNN的卷积层输出特征作为图像检索的图像特征向量来使用;
步骤3、通过特征哈希方法将浮点特征映射为二值特征;
步骤4、采用多比特哈希编码方法,将哈希空间中的浮点向量量化为二值向量,转换为二值特征描述子能够降低特征存储的空间开销并提升特征比对速度:
步骤4.1、定义哈希函数q′(x,θn),θn表示从输入标量x统计的n个聚类中心,将x划分到n+1个空间中,经过q’量化的x共有n+1种表示;当n为1且θn为0时,q’等价于q;新的编码占用n个比特位,对于n+1个空间中的位置m,所述n个比特位中前n-m个值为0,后m个值为1;对于n为4的情况,共有0、1、2、3、4状态,分别量化为0000,0001,0011,0111,1111;量化能够实现在异或运算规则下,不同状态异或后1的个数等价于十进制差的绝对值,4–1=Popcnt(1111^0001)=Popcnt(1110)=3;所述Popcnt为汇编指令,即返回数字中比特值1的个数;
步骤5、计算每个相邻帧哈希特征的相似性,相似性高的合并为同一镜头:
步骤5.1、一个镜头选中间帧作为代表帧,不同帧的两个哈希特征集合A和B之间计算相似度的方式为Jaccard距离,定义一个阈值s,集合A和B中当两个二值特征异或后1的数量大于s认为不相似即表示不在交集中,小于等于s认为相似即表示在交集中,Jaccard距离定义为
步骤6、将分割好镜头的视频哈希特征作为视频的特征描述。
2.根据权利要求1所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1、卷积层的输出特征表示为其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度;将单个关键帧的特征f从单一向量转换成局部特征描述子的集合以降低物体位移、镜头角度变化、物体尺度的干扰的影响;f′中的每一个元素为原特征图上坐标为i,j的特征向量,特征向量的数量为H*W个。
3.根据权利要求2所述的一种深度学习和哈希编码的视频检索方法,其特征在于,所述步骤3包括以下步骤:
步骤3.1、使用近似最近邻哈希方法将f′中单个局部特征描述子映射到哈希空间;
对于一个f′中的特征向量之一x,定义包含n个子哈希函数的哈希函数H(x),其定义为:
H(x)={q(h1(x)),q(h2(x)),...,q(hn(x))};
上式中hi(x)为子哈希函数,{q(h1(x)),q(h2(x)),...,q(hn(x))}为量化函数,上述步骤3.1是先通过子哈希函数hi(x)将f′中的特征向量映射到哈希空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京远鉴信息技术有限公司,未经北京远鉴信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811632349.1/1.html,转载请声明来源钻瓜专利网。