[发明专利]一种非监督视频语义提取方法有效
申请号: | 201810496579.3 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108805036B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 林劼;王芷若;马骏;崔建鹏;杜亚伟;钟德建 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 视频 语义 提取 方法 | ||
1.一种非监督视频语义提取方法,其特征在于,包括以下步骤:
S1:构建三维卷积神经网络模型,使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络模型;
S2:使用滑动窗口将视频数据库中不带标签视频数据处理成符合三维卷积神经网络输入的数据;
S3:使用S2步骤生成数据作为三维卷积神经网络模型的输入数据,取三维卷积神经网络模型全连接层的输出数据作为视频段的语义特征;
S4:使用S3步骤生成的视频段语义特征序列作为视频语义自编码器的输入,通过自编码器整合得到视频整体语义特征;
步骤S1包括下列子步骤:
S11:构建包含五层卷积层、池化层,两层全连接层和一层SOFTMAX层的三维卷积神经网络模型;
S12:在使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络之前,需要对视频数据集视频预处理:将UCF-101视频集中的原始视频需要按照一定的FPS转化为视频帧图片集,对图片进行大小调整、噪声过滤的图像预处理,将图片转化为112*112的统一规格;
S13:经过预处理的UCF-101视频集训练视频对应数据形式为(Xn,Ln):n为训练视频个数,其中Xn=[xn(1),xn(2),xn(3),...,xn(m)]是视频Xn经过预处理后的视频图片集合,m为视频转化为图片帧的个数,本方法使用ffmpeg将视频按照每秒20帧转化为图片序列,Ln为视频Xn对应标签类型;
S14:基于三维卷积神经网络模型和学习算法,使用经过预处理的UCF-101视频数据集,训练一个具有高识别率的视频种类识别模型;
步骤S2包括下列子步骤:
S21:将测试数据中视频帧图片数量m不满足m=kw的视频帧图片集进行补充处理,其中,k为任意整数,w为滑动窗口的大小,将视频最后一帧的图片进行复制操作直到满足m为w的倍数;
S22:使用滑动窗口对视频帧序列进行滑动读取帧图片,滑动步长为滑动窗口的一半,每滑动一次,获取的帧图片为三维卷积神经网络的一次输入;取滑动窗口大小w=16,因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合,其中代表窗口滑动第k次滑动获得视频图片集;
S31:使用S1中使用UCF-101视频集训练得到的三维卷积神经网络模型识别S2中处理后的测试视频数据
S32:将三维卷积神经网络的全连接层的输出固定为子动作种类个数;
S33:三维卷积神经网络输入为S22中定义的输出为第一层全连接层的输出Fk=[f1,f2,f3,...,f4096],其中Fk的维度4096为三维卷积神经网络第一层全连接层的输出维度;
S34:测试视频数据对应三维卷积神经网络输出为[F1,F2,F3,...,Fk]其维度为4096*k维。
2.根据权利要求1所述的一种非监督视频语义提取方法,其特征在于,步骤S4包括下列子步骤:
S41:使用S3中三维卷积神经网络模型对测试视频数据语义特征提取结果[F1,F2,F3,...,Fk]作为视频语义自编码器的输入提取视频整体语义特征;
S42:循环自编码器将输入特征序列[F1,F2,F3,...,Fk]转化为特征对序列[[F1,F2],[F2,F3],[F3,F4],...,[Fk-1,Fk]],采取贪心算法思想,其过程为依次选取特征对序列中的每一对特征将其整合为一个父特征,表示为:F1,2=f(W(1)[F1,F2]+b(1)),其中W(1)代表n*n的矩阵参数,b(1)是一个偏置项,W(1)与b(1)是通过学习特征序列对得到的;F1,2的重构过程为:[F1',F2']=W(2)F1,2+b(2)其中W(2)代表n*n的矩阵参数,b(2)是不同于b(1)的偏置项,同样W(2)与b(2)是通过学习重构误差得到;自编码器的重构误差为:循环自编码器的目标函数为:其中A(x)表示输入序列[F1,F2,F3,...,Fk]对应的语义树的所有可能,T(y)表示所有可能的特征对,循环自编码的一次编码过程是选出所有编码对中重构误差最小的一个特征对,将这对特征从特征序列中移除并将其父特征作为这一个特征对的代表组成一个新的特征序列;
S43:重复S42的自编码过程,直到特征序列中特征向量个数为1;
S44:循环自编码器输出最终的特征向量作为视频Xn的语义特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810496579.3/1.html,转载请声明来源钻瓜专利网。