[发明专利]基于多视角多示例学习的恐怖视频场景识别方法有效
申请号: | 201310376618.3 | 申请日: | 2013-08-26 |
公开(公告)号: | CN103473555A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 胡卫明;丁昕苗;李兵 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视角 示例 学习 恐怖 视频 场景 识别 方法 | ||
技术领域
本发明涉及模式识别和计算机网络内容安全领域,特别涉及一种基于多视角多示例学习的恐怖视频场景识别方法。
背景技术
随着互联网技术和应用的迅速发展,人们对互联网的认识和使用已越来越深入,同时,网络也给人们的生活带来了很多的便利,甚至改变了人们的生活方式。在互联网高速发展的基础上,色情、暴力、恐怖等有害信息的传播也变得越来越容易。心理学和生理学研究表明,互联网中的恐怖信息对青少年的身心健康产生的危害绝不亚于色情信息的危害。过多的恐怖信息可能使人长期处于极度的焦虑和恐惧中,甚至使人身心受到损害,容易产生心理失衡或障碍,严重时出现病理症状,导致各种恐怖症产生,甚至引发其它的精神疾病;过多恐怖信息的接触是恐惧症及其它心理病症的根源所在,同时,恐怖信息的过剩导致儿童、青少年的恐惧泛化,进而影响他们的社会认知及未来人格的健康发展;过多恐怖信息的接触将左右孩子的阅读取向,影响儿童青少年的审美情趣,可能引发学习不良问题,甚至引发犯罪。因此,有效地对互联网中的恐怖信息进行过滤,对于保护青少年的健康成长,降低青少年犯罪,维护社会稳定,以及抵制互联网低俗之风都具有重要的实际意义。
网络恐怖信息过滤的研究是一个多学科交叉的研究课题,涉及到网络内容安全、多媒体内容分析与理解、模式识别、机器学习等多个领域。而恐怖信息过滤又与传统的色情信息过滤有所不同,“恐怖”本身是一种情感的感知与感受,所以恐怖信息过滤还涉及到情感认知以及视觉心理学领域的相关研究,其研究具有重要的学术意义。
恐怖视频由于其信息量大,形象生动,相比文字类或图片类的恐怖信息对青少年的危害更大,识别难度更高,是当前网络恐怖信息过滤中的难 点之一。随着互联网过滤技术的发展,越来越多的研究者开始关注专门的恐怖视频识别技术。Wang等基于情感认知理论对每个恐怖视频的所有关键帧提取了一系列有效的音视频及情感特征,平均化后作为整个视频的情感特征,并使用支持向量机(Support Vector Machine,SVM)来进行恐怖视频的分类识别。由于恐怖视频并不是所有的帧都包含恐怖信息,提取整个恐怖视频的平均特征必将淡化恐怖视频帧的特征信息,从而导致识别率的下降。基于恐怖视频中一定会出现恐怖视频帧,而非恐怖视频中不会包含任何恐怖视频帧的特点,Wang等和Wu等将视频看作多示例学习中的包(bag),视频中的关键帧看作包内的示例(instance),提出采用多示例学习(Multi-Instance Learning,MIL)的方法来识别恐怖视频,并取得了较好的实验效果。然而,在传统多示例学习框架中,示例之间被假定为相互独立的,这并不完全符合视频的特点,即视频中的关键帧之间存在一种上下文关系,另外,上下文关系只反映了恐怖视频一个视角特性,通过观察发现,恐怖视频包含多个视角特性,包括:独立视角特性、低层上下文视角特性、中层上下文特性、情感特征分布视角特性。多个视角特性融合可以有效提高视频的识别率。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的是提供一种可以兼顾视频多个视角特性的算法框架。
(二)技术方案
为达到上述目的,本发明提供了一种基于多视角多示例学习的恐怖视频识别方法,其包括:
步骤1、对训练视频集合中的视频提取视频镜头,并针对每个视频镜头选取情感代表帧和情感突变帧;
步骤2、对训练视频集合中每个视频镜头提取音频和视觉特征,其中视觉特征基于所提取的情感代表帧和情感突变帧提取;
步骤3、对于每一个视频提取其四个视角特征向量,构成训练视频集合的多视角特征集合,所述四个视角特征包括独立视角特征、中层上下文视角特征、低层上下文视角特征、情感特征分布视角特征;
步骤4、对所得到的训练视频集合对应的多视角特征集合和待识别视频的多视角特征向量进行稀疏重构,得到稀疏重构系数;
步骤5、根据所述稀疏重构系数计算待识别视频的多视角特征向量与训练视频集合中恐怖视频集合与非恐怖视频集合分别对应的多视频特征集合的重构误差,进而确定待识别视频是否为恐怖视频。
其中,步骤1具体包括如下步骤:
步骤1.1、以镜头为单位计算每个视频帧的颜色情感强度值;
步骤1.2、计算每个镜头内视频帧颜色情感强度值的平均值和方差值;
步骤1.3、选择情感强度值最接近平均值的视频帧作为情感代表帧;
步骤1.4、选择情感强度方差值最大的视频帧作为情感突变帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310376618.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手写汉字美观度的评价方法
- 下一篇:一种证件透视校正方法及系统