[发明专利]视频识别方法及装置在审
申请号: | 201610150800.0 | 申请日: | 2016-03-16 |
公开(公告)号: | CN107205162A | 公开(公告)日: | 2017-09-26 |
发明(设计)人: | 张荣 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04N21/234 | 分类号: | H04N21/234;H04N21/44 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司11134 | 代理人: | 宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 识别 方法 装置 | ||
技术领域
本发明涉及信息安全领域,具体而言,涉及一种视频识别方法及装置。
背景技术
随着互联网技术的迅速发展,信息内容呈现了爆炸式的增长。在这些海量的数据中,很可能混杂着非法视频,比如非法暴恐视频,以下以非法暴恐视频为例进行说明,为了避免公众不受此类非法暴恐视频的鼓惑与毒害,必须要识别出那些视频,然后予以删除。
相关技术中的暴恐视频识别的方法主要包括以下几种方式:第一种方式是肉眼检查;第二种方式是将视频截帧为图片,然后通过图像搜索的方式在暴恐图片样本库中找相似;第三种方式是收集暴恐视频建立样本库,计算样本库中各视频的视频指纹,与待检查视频的指纹比对。
但是,对第一种方式而言,即肉眼检查的方式,其并不可靠且低效:人很难记住繁多的暴恐组织标志与人物,而且人的检查质量容易波动,疲劳后尤其容易漏过。一个训练有素的审核员每天大约检查1000段视频,效率较低。对第二种方式而言,即将视频截帧为图片,然后通过图像搜索的方式在暴恐图片样本库中找相似,其效果强烈依赖于样本库,如果样本库更新不及时或者未能收集到类似图片,则无法正确检出暴恐图片。对第三种方式而言,即视频指纹找相似视频的方式,同样有着鲁棒性不强、只能检出与样本库中视频相似度很高的暴恐视频。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
根据本申请实施例的一个方面,提供了一种视频识别方法,包括:提取待测视频中的图像;将图像输入至经指定样本集训练后的深度卷积神经网络模型,得到输出值,其中,指定样本集为对多个类型的图片样本进行预处理后得到的样本集;判断输出值与第一预设阈值的大小;在输出值大于第一预设阈值的情况下,确定待测视频为多个类型中的指定类型的视频。
可选地,上述深度卷积神经网络模型包括:8个卷积层和3个全连接层;其中,上述8个卷积层之后为上述3个全连接层,上述8个卷积层中的第一个卷积层用于接收输入上述深度卷积神经网络模型的图像,上述3个全连接层中的最后一个全连接层用于输出所述输出值。
可选地,第一个卷积层包含64个卷积核,每个卷积核大小为7x7x3;第二个卷积层包含192个卷积核,每个卷积核大小为3x3x64;第三个卷积层包含256个卷积核,每个卷积核大小为3x3x192;第四个卷积层包含480个卷积核,每个卷积核大小为3x3x256;第五个卷积层包含512个卷积核,每个卷积核大小为3x3x480;第六个卷积层包含528个卷积核,每个卷积核大小为3x3x512;第七个卷积层包含832个卷积核,每个卷积核大小为3x3x528;第八个卷积层包含1024个卷积核,每个卷积核大小为3x3x832;第一个全连接层含有1024x1024个参数,输出为1024个节点的值;第二个全连接层含有1024x1024个参数,输出为1024个节点的值;第三个全连接层含有1024x2个参数,输出为2个节点的值。
根据本申请实施例的另一方面,还提供了一种视频识别装置,包括:提取模块,用于提取待测视频中的图像;处理模块,用于将图像输入至经指定样本集训练后的深度卷积神经网络模型,得到输出值,其中,指定样本集为对多个类型的图片样本进行预处理后得到的样本集;判断模块,用于判断输出值与第一预设阈值的大小;确定模块,用于在输出值大于第一预设阈值的情况下,确定待测视频为多个类型中的指定类型的视频。
在本申请实施例中,采用经过指定样本集训练后的深度卷积神经网络模型对待测视频进行识别的方式,由于通过指定样本集训练后的深度卷积神经网络模型能够学习到指定类型的图片的本质特征,因而能够识别出各种变化的、未曾纳入该指定样本集中的该指定类型的图片,进而能够很好地识别出该待测视频是否是该指定类型的视频,具有很好的鲁棒性,进而解决了相关技术中的视频识别方式存在检测效率较低和鲁棒性不强的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本申请实施例的一种视频识别方法的计算机终端的硬件结构框图;
图2是根据本申请实施例1的视频识别方法的流程图;
图3是根据本申请可选实施例的卷积神经网络模型的结构图;
图4是根据本申请可选实施例的一种视频识别的方法的流程图;
图5是根据本申请实施例的视频识别装置的结构框图;
图6是根据本申请实施例的一种计算机终端的结构框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610150800.0/2.html,转载请声明来源钻瓜专利网。