[发明专利]一种基于深度学习的视频理解方法在审

申请号：	201711053056.3	申请日：	2017-10-31
公开（公告）号：	CN107909014A	公开（公告）日：	2018-04-13
发明（设计）人：	苏育挺;刘瑶瑶;刘安安	申请（专利权）人：	天津大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	天津市北洋有限责任专利代理事务所12201	代理人：	杜文茹
地址：	300192***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习视频理解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种视频理解方法。特别是涉及一种基于深度学习的视频理解方法。

背景技术

随着互联网的快速发展，人类逐渐进入大数据的时代。网络上存在着大量的图片和视频数据。这些数据的来源也各不相同，绝大部分数据没有相关的文字描述。这样，我们大规模地处理这些数据时，就有着相当大的困难。对于人类而言，根据图片或者视频的内容写出一段对应的描述性文字是很容易的，但对于计算机进行这样的任务就具有相当大的难度。图片/视频描述(image/video caption)这一课题就是由此进入了人们的视野。这是一个融合计算机视觉、自然语言处理和机器学习的综合问题，它类似于翻译一副图片/视频为一段描述文字。最初的视频描述问题是用于道路监控系统之中的，Kollnig等人在1994年的文章中就提出了用一系列动词和短句替代数字来表述车辆的活动情况。这类问题被称为逆好莱坞问题(inverse Hollywood problem)。当时，人们处理这类问题的思路是将图像语义分为底层特征层，对象层和概念层。先识别出图像中关键的对象，再通过环境和对象预测发生的事情，最后整合为一句话。

近年来，随着大数据和深度网络在机器翻译领域的应用，图片和视频描述这一研究课题迎来了新的突破。Subhashini Venugopalan等人在2015ICCV上所发表的《Sequence to Sequence–Video to Text》(如Venugopalan S,Rohrbach M,Donahue J,et al.Sequence to Sequence--Video to Text[C]//IEEE International Conference on Computer Vision.IEEE,2015:4534-4542)引入LSTM网络来处理视频描述问题，使得深度学习的方法在该领域得以应用。

研究图片和视频描述问题，一方面为互联网上大量无标签的图片和视频数据的处理、整合和利用提供了可能；一方面也为使用深度网络处理语言文字类问题，实现深度网络中图像视频数据与文字数据的相互转换提供了思路。

从实际的应用角度而言，图片视频描述的研究，可以应用于大量监控视频的处理，如道路交通监控、机场和火车站的安全监控等等。亦可以用于视觉障碍人士获取信息。随着社交网络的发展，YouTube、Facebook等社交媒体上有用户上传的大量图片视频，很多都是未经描述的。使用图片和视频描述技术对这些数据进行初步处理有利于这些数据进一步的分类和整合。

从科研角度而言，当下这一课题结合了深度学习方法和语言学知识，是一类多学科融合性问题。这一问题的研究有利于为深度网络在其他领域的应用提供参考，也对机器翻译等其他语言学问题的研究提供了新的思路。使用卷积神经网络处理二维图片数据的研究已经很多了，但是使用深度网络处理视频数据的方法还处于有待提高的阶段。视频描述的研究对于如何整合时域信息以达到有效地利用提供了大量的参照样本。

发明内容

本发明所要解决的技术问题是，提供一种基于深度学习的视频理解方法，能够基于深度学习网络进行端到端的优化，并基于视频的时间维度信息和图像信息进行处理，大幅提高视频理解输出信息的有效性和准确率。

本发明所采用的技术方案是：一种基于深度学习的视频理解方法，包括如下步骤：

1)通过训练获取基于LSTM网络的模型，包括：

(1)使用C3D算法取得图像特征；

(2)使用PCA算法进行降维处理，将特征向量的维数由4096降至128，并进行时域混叠和归一化，得到归一化后的特征向量；

(3)使用MSR-VTT数据库在LSTM网络中进行训练，得到LSTM网络模型，具体是对每个视频图像序列x归一化后的特征向量，按视频图像序列x分组，将分组后的特征向量和MSR-VTT数据库中对应的语句信息均输入LSTM网络，训练得到基于LSTM网络的模型；

2)通过基于LSTM网络的模型，得到待测视频图像序列的语句信息，包括：

(1)使用C3D算法取得待测视频图像序列的特征向量；

(2)使用PCA算法进行降维处理，将特征向量的维数由4096降至128，并进行时域混叠和归一化，得到归一化后的特征向量；

(3)通过基于LSTM网络的模型，得到待测视频图像序列的输出的语句。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。