[发明专利]基于感兴趣区域多元空间关系模型的图像分类方法有效

申请号：	201310728374.0	申请日：	2013-12-25
公开（公告）号：	CN103678680A	公开（公告）日：	2014-03-26
发明（设计）人：	王生生;刘东;谷方明	申请（专利权）人：	吉林大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	长春吉大专利代理有限责任公司 22201	代理人：	王寿珍;朱世林
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于感兴趣区域多元空间关系模型图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及图像特征提取及模式识别

背景技术

随着移动互联网技术的迅速发展和智能手机的普及，人们能够轻易地通过各种移动设备上传图像，使得互联网上的图片数据量呈几何级增长。因此，对海量图像进行准确的分类和理解，成为机器视觉领域亟待解决的问题之一。除了互联网应用，图像分类技术还可以用于遥感、医学、农业和生物等领域。近年来，图像分类技术快速发展并得到广泛应用，已成为机器视觉、模式识别等领域的热点之一。

目前图像分类的方法可归纳为三类：基于底层视觉特征的方法，基于结构模型的方法和基于词袋(bag of word)模型的方法。基于底层视觉特征的方法，是指直接获取图像全局或分块的形状、颜色和纹理等特征用于图像分类，该类方法计算较简单，但分类精度往往不能令人满意，且单一的描述算子适用的图像类别有限。基于结构模型的方法主要通过分割技术确定图像的不同组成部分，进而考虑不同组成部分之间的相互关系来进行图像分类。这类方法优点在于其携带了一定的语义特征，但计算复杂度很高，且依赖前期图像分割的实现效果。基于词袋模型的方法则首先对局部图像块(patch)进行特征提取，使用聚类方法构建视觉词典，统计每幅图像出现视觉单词的频率作为分类的特征向量。该方法既保留了图像的局部特性又有效地压缩了全局图像的描述，且计算简单，因此其应用最为广泛。根据局部图像块的采样方式，又可将词袋模型分为基于区域划分和基于兴趣区域检测两种。前者将原图像划分为若干个等比例的图像块作为待训练的视觉样本，这种采样方式简单，但容易产生冗余的信息。后者借助兴趣点检测算子(interest point detector)对原图像进行兴趣区域检测，获取的一系列感兴趣区域ROI(Region of Interest：感兴趣区域)能够稳定地反应一些局部显现出来的特性，由此产生的视觉单词更具代表性，并且在一定程度上能够抵抗位置信息变化带来的影响，在图象识别中可获取更高的精度。

虽然空间关系携带了有助于图像分类的大量语义信息，但现有的图像分类方法只有很少一部分使用了空间关系，主要使用在基于结构模型中，空间关系谓词较为简单且种类单一（比如只有方向关系）。通过深入的理论研究和实验验证，我们发现在基于感兴趣区域的词袋模型方法中，如果引入感兴趣区域的空间关系，将会大大提高分类精度。我们通过三个例子加以说明。图1所示的“高楼大厦”图像中，w₁、w₂、w₃分别为标记窗户、楼面、天空的兴趣区域，可以发现标记窗户的兴趣区域之间存在规律性的空间关系模式，相比于底层视觉特征，这种空间关系模式更能反映图像的本质特征。在图2所示的“海岸”的场景中，三类不同的兴趣区域w₃、w₄、w₅分别标记天空，沙滩和海洋，而这三者存在上中下的空间关系，具有一定的语义信息。再看存在视觉单词类别较多的“高速公路”场景（如图3所示），对于轿车往往存在标记后车窗、车尾、地面阴影的三类兴趣区域w₆、w₉、w₈，而这三者也呈上中下的空间分布。此外，在该类场景中标记斑马线的视觉单词w₇之间的分布也呈现某种固定的空间关系模式，如直线排列状。由此可见，在基于兴趣区域的词袋模型中，提取兴趣区域之间的空间关系特征，可以大大缩小与高层语义特征之间的鸿沟，在不明显增加时间复杂度的前提下大幅度提高图像识别的精度。

但是从上述例子也不难发现，描述感兴趣区域间的空间关系也是较为复杂的工作，其中涉及了拓扑、方向、距离等多元化的空间关系。为此，我们设计了面向图像分类的感兴趣区域多元空间关系模型，进而应用于基于词袋模型的图像分类。

发明内容：

为解决现有图像分类技术存在的问题，如基于结构的方法过度依赖前期处理、基本词袋模型缺乏空间信息等，本发明提出基于兴趣区域多元空间关系模型的图像分类方法，发明内容主要包括：感兴趣区域多元空间关系模型，本图像分类方法的流程框架以及集成了特征融合、特征选择和优化算法的分类器。

一种基于感兴趣区域多元空间关系模型的图像分类方法，至少包括以下步骤：

步骤一：对原始图像检测感兴趣区域

使用兴趣区域检测算子检测图像库中每幅图像的感兴趣区域ROI；

步骤二：提取感兴趣区域ROI的底层视觉特征

对检测到的感兴趣区域，使用底层视觉特征描述算子提取特征向量；

步骤三：提取词袋特征

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】