[发明专利]基于帧选择的视频内容描述方法和系统在审

申请号：	201811100828.9	申请日：	2018-09-20
公开（公告）号：	CN109409221A	公开（公告）日：	2019-03-01
发明（设计）人：	王树徽;陈扬羽;黄庆明;张维刚	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06F16/332
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国;梁挥
地址：	100080 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	筛选模型视频内容描述视频视频帧帧选择神经网络构建视觉特征训练数据语义一致构建语句筛选视觉
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于帧选择的视频内容描述方法，包括：以前馈神经网络构建筛选模型，该筛选模型根据视频帧的视觉丰富度和语义一致度对该视频帧进行筛选；构建用于对待描述视频的内容进行描述的描述模型；以训练数据对该筛选模型和该描述模型进行训练；通过该筛选模型在该待描述视频中选取描述帧；提取该描述帧的视觉特征并输入该描述模型，获得该待描述视频的描述语句。

技术领域

本发明涉及数字图像处理与自然语言处理领域技术，特别是涉及一种对于视频内容的自然语言描述生成技术。

背景技术

视频内容内容描述(video captioning)是将视频内容转换成自然语言的任务。早至2002年，Kojima等人提出了第一个视频内容描述系统来描述人类的行为。从那时起，诞生了一系列关于图片和视频描述的研究。早期的方法采用自底向上的模式来处理这个问题，即首先通过属性学习或者物体检测来生成描述词，然后通过语言模型，将这些描述词串联成一个完整的句子。随着神经网络和深度学习的发展，现代的描述系统大多基于卷积神经网络和循环神经网络，并采用编码器-解码器(encoder-decoder)的结构。

视频内容内容描述的传统解决方法基于自然语言处理技术和跨模态检索技术。例如，Rohrbach等人为了对TACoS数据集中记录烹饪过程的视频进行描述，首先定义了一个五元组<ACTIVITY,TOOL,OBJECT,SOURCE,TARGET>，并从视频中利用手工特征抽取出视觉概念，填充到五元组中，以其作为一段视频的语义表示，然后使用条件随机场计算出视频的语义表示，最后借助机器翻译技术将语义表示转变为自然语言。

随着深度学习技术在图像概述领域取得突破，现今大部分的视频概述方法也都基于深度学习。在某些文献中，为了能够使用更丰富的图像信息，作者期望通过对视频进行关键帧提取，然后使用图像内容描述的方法生成视频描述。作者分析了不同的视频分割方法对于视频内容描述的作用，认为根据动作检测的结果，对视频内容进行时序上的分割是一种较好的方式，并且选用改进的密集轨迹特征来训练动作检测器。对于每一段分割结果，最终选择中间帧作为该段视频的表示帧。由于单独对不同的帧进行描述所得的语句之间关联性较低，作者还使用自然语言处理的技术，把各个句子中的名词用适当的代词进行替换，并且加上一些连词，使得产生出的句子具有较好的可读性。

Shetty等人利用了两类特征，一是视频内的物体及其属性特征(帧级别的特征)，二是视频内的运动和动作信息(片段级别的特征)。采用这样的做法，有利于应对不同领域的视频内容，因为不同领域的视频之间内容的差异可能很大，无法通过一种特定的特征来做表示。为了提取帧级别的特征，先对视频进行采样，每一秒钟采一帧，然后使用GoogLeNet对每一帧图片进行特征提取，再使用平均池化(mean pooling)的方式得到整个视频的帧级别特征。片段级别的特征主要有两种，一个是密集轨迹(dense trajectories)特征，另一个是三维卷积特征。除此之外，作者还加入了视频的类别特征作为补充，并且在这些特征的基础上基于改进的长短期记忆网络设计了多个语言生成模型，发现各个模型都有其擅长的视频类型，因此在总的方法里又增加了一个判别模块，对各个模型的生成结果进行评估，选出最佳的描述。

Dong等人基于图像内容描述中常用的卷积神经网络结合循环神经网络的方法，在图像编码之前加入了更丰富的标注信息，在多条描述生成之后依据相关性排序选取最好的结果，从而对视频生成较好的描述。这项工作另辟蹊径，和传统的通过对卷积神经网络加循环神经网络结构进行修改的方式不同，作者增加了两个流程，在使用卷积神经网络进行视觉表观信息提取之前，先使用其它方式(分类，聚类)来为视频打上标签，然后把这些标签以及从视频中提取的视觉表观信息融合之后，再使用Word2VisualVec进行融合，然后传入基于长短期记忆网络的语言生成模型，得到视频内容的语言表述。与主流的只生成一个描述句子的方式不同，作者先使用集束搜索的方法生成20个句子，然后对这些句子再做一次评估，选取与视频内容最相关的作为最后的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811100828.9/2.html，转载请声明来源钻瓜专利网。

上一篇：基于人脸识别的业务引导方法、装置及存储介质
下一篇：一种基于移动端的多视角人脸表情识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于帧选择的视频内容描述方法和系统在审

专利文献下载