[发明专利]基于多特征融合的视频描述方法有效
申请号: | 201710281305.8 | 申请日: | 2017-04-26 |
公开(公告)号: | CN107256221B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 刘纯平;徐鑫;林欣;刘海宾;季怡 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/74 | 分类号: | G06F16/74;G06F40/134;G06K9/00;G06K9/62 |
代理公司: | 北京市科名专利代理事务所(特殊普通合伙) 11468 | 代理人: | 郭杨 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 融合 视频 描述 方法 | ||
本发明公开了一种基于多特征融合的视频描述方法,其特征在于:1)通过融合传统CNN特征和SIFT流特征提取视频的深层时空特征;2)根据步骤1)提取的深层时空特征,采用加入以平均池化特征作为视频整体特征的S2VT句子生成模型生成相应的句子描述;3)采用word2vec词向量替换one‑hot vector词表征优化步骤2)中的句子生成模型。本方法优点是通过多特征融合,能更好地提取到更加鲁棒的时空特征,同时在句子生成模型中加入平均池化特征,以便视觉信息与单词间建立更多联系,最后采用word2vec词向量方法替换one‑hot vector词表征,在单词与单词之间建立更多的联系,有效提高视频描述性能。
技术领域
本发明涉及视频描述技术,尤其是一种基于多特征融合的视频描述方法。
背景技术
概念-基本概念:视频描述是指根据给定的视频的视觉信息,用一个自然语言的句子将视频中的语义信息描述出来。
目的和意义:视频描述的目的是从视频信息中学习到视频中包含的语义信息,并用自然语言描述出来。它在许多领域具有广泛的应用价值,如基于语义内容的视频检索和视频标注、描述性的视频服务、盲人导航和自动化视频监控等。近年来,伴随互联网与多媒体等技术的飞速发展,视觉数据的数量呈指数级的增长,从视觉信息中学习到语义信息的技术已经逐渐成为一种新的需求。目前从单幅图像中学习到语义信息的技术已经日益成熟,但相对于图像而言,视频中包含有更加复杂的目标、场景和行为,这对学习视频中的语义信息提出了更高的要求,我们迫切需要一种能够生成表征视频内容且符合语言规范的句子的视频描述方法。
方法-基本过程:尽管视频描述的方法不同,但基本过程大致可以分为两个部分。第一部分是通过卷积神经网络(Convolutional Neural Network,CNN)提取视频的特征。第二部分是根据提取到的视频特征采用循环神经网络(Recurrent Neural Network,RNN)生成视频句子描述。
方法-视频特征提取:近年来,随着机器学习、深度学习研究的发展,CNN在目标识别、行为识别、人脸识别等任务中都表现出了很好的性能。目前大多数方法都是采用现有的CNN网络模型提取视频帧的空间特征。关于时间特征(运动特征)提取方面,Hom等人提出了光流法来提取相邻帧之间的运动特征。该方法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻之间物体的运动信息的一种方法。David Lowe等人提出SIFT流方法提取不同相邻帧之间的运动特征。通过利用图像的SIFT特征的局部描述,生成原始图像对应的SIFT特征图,经过时间的变化,对应的特征之间会有相对位置上的变化,这种变化构成了流场,形成SIFT流,Tran等人提出了3-D CNN模型。该模型通过在CNN的卷积层进行3D卷积,以捕捉在时间和空间都具有区分性的特征。
方法-视频句子生成模型:近些年,随着自然语言处理的发展,机器翻译中的一些思想可以很好地应用到视频句子生成中,Donahue等人提出LRCNs模型,它使用CNN提取视频的视觉特征,再使用叠加的双层LSTM生成图像的句子描述。Yu等人提出h-RNN模型,其中层次RNN包含了句子生成器和段落生成器。Pan等人提出了LSTM-E的RNN句子生成模型,并结合3-D CNN构成最终的模型。Venugopalan等人提出了在文本数据集上做迁移学习,并加入了DCC模型。现有的视频句子生成模型中单词的表示大多采用one-hot vector编码,这种编码方式比较简单,无法表示出单词与单词之间的相关性。
缺陷:就视频描述而言,主要存在三个问题。
1、现有的视频特征提取方法对时空特征表达能力不足。传统的视频特征提取方法主要跟图像特征提取方法类似,更加侧重于对空间特征的提取,而忽略了对时序特征的提取。视频中的目标随着物体运动和摄像头的移动会出现尺度的变化,光流法虽然可以获取视频中的运动信息,但是无法获取尺度不变性的特征表达。3D CNN在没有加入视觉注意机制时对视频特征提取性能的提升是有限的,而且3D CNN训练是比较耗时的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710281305.8/2.html,转载请声明来源钻瓜专利网。