[发明专利]基于帧选择的视频内容描述方法和系统在审
申请号: | 201811100828.9 | 申请日: | 2018-09-20 |
公开(公告)号: | CN109409221A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 王树徽;陈扬羽;黄庆明;张维刚 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F16/332 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 筛选模型 视频内容描述 视频 视频帧 帧选择 神经网络构建 视觉特征 训练数据 语义一致 构建 语句 筛选 视觉 | ||
本发明涉及一种基于帧选择的视频内容描述方法,包括:以前馈神经网络构建筛选模型,该筛选模型根据视频帧的视觉丰富度和语义一致度对该视频帧进行筛选;构建用于对待描述视频的内容进行描述的描述模型;以训练数据对该筛选模型和该描述模型进行训练;通过该筛选模型在该待描述视频中选取描述帧;提取该描述帧的视觉特征并输入该描述模型,获得该待描述视频的描述语句。
技术领域
本发明涉及数字图像处理与自然语言处理领域技术,特别是涉及一种对于视频内容的自然语言描述生成技术。
背景技术
视频内容内容描述(video captioning)是将视频内容转换成自然语言的任务。早至2002年,Kojima等人提出了第一个视频内容描述系统来描述人类的行为。从那时起,诞生了一系列关于图片和视频描述的研究。早期的方法采用自底向上的模式来处理这个问题,即首先通过属性学习或者物体检测来生成描述词,然后通过语言模型,将这些描述词串联成一个完整的句子。随着神经网络和深度学习的发展,现代的描述系统大多基于卷积神经网络和循环神经网络,并采用编码器-解码器(encoder-decoder)的结构。
视频内容内容描述的传统解决方法基于自然语言处理技术和跨模态检索技术。例如,Rohrbach等人为了对TACoS数据集中记录烹饪过程的视频进行描述,首先定义了一个五元组<ACTIVITY,TOOL,OBJECT,SOURCE,TARGET>,并从视频中利用手工特征抽取出视觉概念,填充到五元组中,以其作为一段视频的语义表示,然后使用条件随机场计算出视频的语义表示,最后借助机器翻译技术将语义表示转变为自然语言。
随着深度学习技术在图像概述领域取得突破,现今大部分的视频概述方法也都基于深度学习。在某些文献中,为了能够使用更丰富的图像信息,作者期望通过对视频进行关键帧提取,然后使用图像内容描述的方法生成视频描述。作者分析了不同的视频分割方法对于视频内容描述的作用,认为根据动作检测的结果,对视频内容进行时序上的分割是一种较好的方式,并且选用改进的密集轨迹特征来训练动作检测器。对于每一段分割结果,最终选择中间帧作为该段视频的表示帧。由于单独对不同的帧进行描述所得的语句之间关联性较低,作者还使用自然语言处理的技术,把各个句子中的名词用适当的代词进行替换,并且加上一些连词,使得产生出的句子具有较好的可读性。
Shetty等人利用了两类特征,一是视频内的物体及其属性特征(帧级别的特征),二是视频内的运动和动作信息(片段级别的特征)。采用这样的做法,有利于应对不同领域的视频内容,因为不同领域的视频之间内容的差异可能很大,无法通过一种特定的特征来做表示。为了提取帧级别的特征,先对视频进行采样,每一秒钟采一帧,然后使用GoogLeNet对每一帧图片进行特征提取,再使用平均池化(mean pooling)的方式得到整个视频的帧级别特征。片段级别的特征主要有两种,一个是密集轨迹(dense trajectories)特征,另一个是三维卷积特征。除此之外,作者还加入了视频的类别特征作为补充,并且在这些特征的基础上基于改进的长短期记忆网络设计了多个语言生成模型,发现各个模型都有其擅长的视频类型,因此在总的方法里又增加了一个判别模块,对各个模型的生成结果进行评估,选出最佳的描述。
Dong等人基于图像内容描述中常用的卷积神经网络结合循环神经网络的方法,在图像编码之前加入了更丰富的标注信息,在多条描述生成之后依据相关性排序选取最好的结果,从而对视频生成较好的描述。这项工作另辟蹊径,和传统的通过对卷积神经网络加循环神经网络结构进行修改的方式不同,作者增加了两个流程,在使用卷积神经网络进行视觉表观信息提取之前,先使用其它方式(分类,聚类)来为视频打上标签,然后把这些标签以及从视频中提取的视觉表观信息融合之后,再使用Word2VisualVec进行融合,然后传入基于长短期记忆网络的语言生成模型,得到视频内容的语言表述。与主流的只生成一个描述句子的方式不同,作者先使用集束搜索的方法生成20个句子,然后对这些句子再做一次评估,选取与视频内容最相关的作为最后的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811100828.9/2.html,转载请声明来源钻瓜专利网。