[发明专利]一种基于卷积神经网络的特定视频检测方法在审
申请号: | 201610045369.3 | 申请日: | 2016-01-22 |
公开(公告)号: | CN105718890A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 彭宇新;何相腾 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 特定 视频 检测 方法 | ||
技术领域
本发明涉及视频识别与检索技术领域,具体涉及一种基于卷积神经网络的特定视频检测方法。
背景技术
近年来,随着互联网技术与多媒体技术的迅速发展,网络上出现了海量的视频内容,而各种敏感内容的出现已经严重危害国家安全和人民群众的正常生活,因此如何利用计算机来进行有效地监管,迅速准确地检测特定视频,成为了一个急待解决的关键问题。传统的特定视频检测的方法一般是基于各种视觉特征,如词袋(BagofWords,BoW)特征。然而人工设计的这种特征没有充分利用大数据的优势,对于视频信息的表示具有一定的局限性。而深度神经网络,尤其是卷积神经网络(ConvolutionalNeuralNetwork,CNN)作为一种有效的分类模型已经在计算机视觉的多个领域取得了很大成功。因此,基于卷积神经网络的特定视频检测方法受到了了研究者的广泛关注,其充分利用大数据的优势,在海量视频数据中自动学习视频的视觉语义特征,极大地提高了特定视频检测的准确率。
典型的特定视频检测方法主要包括三个阶段:第一阶段,对于视频关键帧提取特征,特征提取的方式有两种:一种是密集型的特征提取,一种是针对兴趣点进行特征提取。第二阶段,将这些提取的特征聚合在一起,形成一个固定大小的特征向量用于表示视频的每一帧。一种普遍使用的方法是利用学习得到的词典对特征进行量化,并得到表示视频关键帧的直方图向量,即BoW特征。第三阶段,基于BoW特征训练得到一个能够进行特定视频检测的分类器,如支持向量机(SupportVectorMachine,SVM)。该方法对特定视频进行检测的效果优劣主要取决于视频特征的优劣。该特征通常依赖于研究者的先验知识,对视频信息的表示具有一定的局限性。除了特征表示的局限性以外,该方法的三个阶段是分别学习或设计的,而对三个阶段之间的相互作用没有很好地进行探索研究。
近年来,深度神经网络在计算机视觉的多个领域均有突出表现,例如图像分类、目标识别、人脸识别等。深度神经网络算法是一种端到端的学习算法,其由原始的像素值直接映射到分类输出,解决了传统特定视频检测方法存在的问题。深度神经网络可以充分利用海量视频数据自动进行特征的学习,相比于手工设计的特征能够更好地对视频概念进行表示。其次,深度神经网络这种端到端的学习过程将特征表示和分类器训练两个阶段有机地结合在一起,不仅简化了学习过程,同时考虑了二者之间的相互关系,有效地提升了特定视频的检测准确率。
发明内容
针对现有技术的不足,本发明提出了一种基于卷积神经网络的特定视频检测方法,能够从大规模视频数据中自动学习视频的特征表示,考虑了特征学习与分类学习两个任务的相互作用关系,将二者有机地结合在一起,极大提高了特定视频检测的准确率。
为达到以上目的,本发明采用的技术方案如下:
一种基于卷积神经网络的特定视频检测方法,用于分析理解视频内容并判断是否为特定视频,包括以下步骤:
(1)训练卷积神经网络模型:利用标注的正样本和负样本对预先使用大规模数据集训练得到的卷积神经网络模型进行精细调整,从而得到适用于特定视频检测的卷积神经网络模型;
(2)特定视频检测:利用步骤(1)中训练得到的卷积神经网络模型对待识别的视频关键帧直接计算出特征,并进行预测来判断是否为特定视频。
进一步,上述一种基于卷积神经网络的特定视频检测方法,所述步骤(1)中,训练卷积神经网络模型的第一步是预训练(pre-training)卷积神经网络。利用大规模的数据集训练得到卷积神经网络模型,在训练过程中仅使用图像级别的标注信息。
进一步,上述一种基于卷积神经网络的特定视频检测方法,所述步骤(1)中,训练卷积神经网络模型的第二步是精细调整(fine-tuning)卷积神经网络模型。根据目标任务,利用已标注的视频信息对卷积神经网络模型的参数进行调整,使其能够更好地适用于目标任务。
进一步,上述一种基于卷积神经网络的特定视频检测方法,所述步骤(2)中,将待识别的视频抽取关键帧,将视频关键帧作为步骤(1)中训练得到的卷积神经网络模型的输入,根据卷积神经网络模型的输出计算得到视频关键帧的预测得分,以此来判断是否为特定视频。
本发明的效果在于:与现有方法相比,本发明能够充分利用大量的视频数据来自动学习特征,学习得到视频的高层特征表示,使得特定视频检测的效果有较大幅度的提升。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610045369.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可增强对比度的服务器机柜室
- 下一篇:障碍物预警方法和障碍物预警装置