[发明专利]一种修正误判的图像内容识别方法在审

申请号：	201611115016.2	申请日：	2016-12-07
公开（公告）号：	CN106778852A	公开（公告）日：	2017-05-31
发明（设计）人：	操晓春;荆丽桦	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	邱晓锋
地址：	100093 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种修正误判图像内容识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机视觉技术领域，具体涉及一种能够降低误判的图像内容识别方法。

背景技术

随着互联网的飞速发展，网络中的信息分享和传播日益广泛。在给人们生活带来极大便利和新鲜资讯的同时，网络也被用于各种不良和敏感信息的传播，安全性问题日益突出。其中，多媒体数据因其生动、直观的特点收到大众推崇，尤其即拍即得的图像数据，成为网络数据中最主要的组成成分之一。调查显示，目前不少不良群体活跃于网络平台，利用其传播不良思想，散播相关图像和音、视频，网络已成为这些组织煽动、招募、资助或策划活动的便利工具。当今时代的网络数据量极其巨大，传统网管的人工审查方式需耗费大量的人力物力，且常常力不从心，难以达到监管需求。因此，高效准确的实现图像内容自动识别，十分重要且很有必要。

总体来看，视觉特征的研究经历了三个阶段：一是基本的特征提取，即通过图像的颜色、亮度、纹理、形状及像素的空间分布等属性对图像进行描述，如颜色特征、纹理特征、局部特征等；二是特征的表达，即在基本特征提取的基础上进行统计、编码或核描述等操作，以形成更为有效的特征表示，如基于无监督学习的“词袋”模型；三是特征的学习，即对大量的输入图像通过特定的网络结构以及训练方法学习出有意义的特征表示，用于后续的分类或其它视觉任务。深度学习(Deep Learning)近几年来活跃于计算机视觉领域，成为当下人工智能领域最受追捧的方法。其基本思想是通过有监督或无监督的学习方式，组合低层特征形成更加抽象的高层表示，即堆叠多个层，每一层的输出作为下一层的输入，从而实现输入信息的分级表达和抽象。

深度学习在图像识别方面主要有两类应用：图像分类和物体识别。(1)图像分类将整张图像作为输入，通过多级卷积网络抽象出其高级特征，然后通过分类器判别其所属的类别。(2)物体识别不将整张图像作为对象，而是首先定位图像中可能是物体的区域，然后识别其为何种物体。

然而，现有方法还存在一定的缺陷。一方面，传统的图像识别算法需针对不同类别设计不同的特征，普适性较差，且通常难以满足实时性要求；另一方面，深度学习在图像分类与物体识别方面各有利弊，提升精度还需深入分析场景特征，优化网络结构的同时也对训练方法进一步优化，以最大限度的发挥数据应有的作用。

发明内容

本发明针对互联网中的海量图像，提出一种修正误判的图像内容识别方法，能够快速实现特定物体的定位与识别。

本发明采用的技术方案如下：

一种修正误判的图像内容识别方法，包括以下步骤：

1)对训练样本的数据集进行扩展，保证能够提取出足够识别物体的特征；

2)利用扩展后的数据集，采用Faster R-CNN框架进行数据训练，在训练过程中引入易误判负类，将其与正样本一同进行训练，最终得到Faster R-CNN网络；

3)利用训练得到的Faster R-CNN网络，识别待检测图像中的特定物体。

进一步地，步骤1)对数据集进行扩展的方法是：首先，采用插值法对样本图像在尺度上进行微小的缩放，分别保持宽度不变将长度拉伸到原来的一定倍数、保持长度不变将宽度拉伸到原来的一定倍数；然后，对样本进行加噪处理以增强其鲁棒性，分别添加高斯噪声和椒盐噪声，以进一步增大样本总量。此外，步骤1)还可以采用镜像化处理、模糊锐化处理、背景变换处理、亮度对比度调节等方式进行扩展。

进一步地，步骤2)通过深入分析数据自身特点和测试过程中的误判图像规律，将易与正样本混淆的图像细分为多类，形成所述易误判负类。

进一步地，步骤2)采用迁移学习方法，使用海量图像数据集预先训练一个模型，在其基础上训练新模型，训练过程采用交替训练法。

进一步地，步骤2)通过RPN网络生成候选区域，再通过Fast R-CNN网络识别出其中的物体对应的类，RPN网络与Fast RCNN物体检测网络共享相同的卷积层。

本发明的有益效果如下：

本发明基于深度学习技术，采用Faster R-CNN框架，能够处理多种格式下的图像文件(jpg、jpeg、jpe、bmp、eps、pgm、png等)，快速实现特定物体的定位与识别。本次发明基于Faster R-CNN源码，可以在普通台式机、工作站、服务器上正常应用。采用本发明的方法进行图像识别，可大幅度减少误判，提高检测精度。

附图说明

图1：基于Faster R-CNN的图像识别网络架构图；

图2：基于多负类的误判修正方法；

图3：不同方法蒙面人识别的PR对比图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所，未经中国科学院信息工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611115016.2/2.html，转载请声明来源钻瓜专利网。

上一篇：基于手机取证数据的社交关系预测系统及其方法
下一篇：基于权重聚类和欠抽样的不平衡数据分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种修正误判的图像内容识别方法在审

专利文献下载