[发明专利]基于感兴趣区域多元空间关系模型的图像分类方法有效
申请号: | 201310728374.0 | 申请日: | 2013-12-25 |
公开(公告)号: | CN103678680A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 王生生;刘东;谷方明 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 王寿珍;朱世林 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 感兴趣 区域 多元 空间 关系 模型 图像 分类 方法 | ||
技术领域
本发明涉及图像特征提取及模式识别
背景技术
随着移动互联网技术的迅速发展和智能手机的普及,人们能够轻易地通过各种移动设备上传图像,使得互联网上的图片数据量呈几何级增长。因此,对海量图像进行准确的分类和理解,成为机器视觉领域亟待解决的问题之一。除了互联网应用,图像分类技术还可以用于遥感、医学、农业和生物等领域。近年来,图像分类技术快速发展并得到广泛应用,已成为机器视觉、模式识别等领域的热点之一。
目前图像分类的方法可归纳为三类:基于底层视觉特征的方法,基于结构模型的方法和基于词袋(bag of word)模型的方法。基于底层视觉特征的方法,是指直接获取图像全局或分块的形状、颜色和纹理等特征用于图像分类,该类方法计算较简单,但分类精度往往不能令人满意,且单一的描述算子适用的图像类别有限。基于结构模型的方法主要通过分割技术确定图像的不同组成部分,进而考虑不同组成部分之间的相互关系来进行图像分类。这类方法优点在于其携带了一定的语义特征,但计算复杂度很高,且依赖前期图像分割的实现效果。基于词袋模型的方法则首先对局部图像块(patch)进行特征提取,使用聚类方法构建视觉词典,统计每幅图像出现视觉单词的频率作为分类的特征向量。该方法既保留了图像的局部特性又有效地压缩了全局图像的描述,且计算简单,因此其应用最为广泛。根据局部图像块的采样方式,又可将词袋模型分为基于区域划分和基于兴趣区域检测两种。前者将原图像划分为若干个等比例的图像块作为待训练的视觉样本,这种采样方式简单,但容易产生冗余的信息。后者借助兴趣点检测算子(interest point detector)对原图像进行兴趣区域检测,获取的一系列感兴趣区域ROI(Region of Interest:感兴趣区域)能够稳定地反应一些局部显现出来的特性,由此产生的视觉单词更具代表性,并且在一定程度上能够抵抗位置信息变化带来的影响,在图象识别中可获取更高的精度。
虽然空间关系携带了有助于图像分类的大量语义信息,但现有的图像分类方法只有很少一部分使用了空间关系,主要使用在基于结构模型中,空间关系谓词较为简单且种类单一(比如只有方向关系)。通过深入的理论研究和实验验证,我们发现在基于感兴趣区域的词袋模型方法中,如果引入感兴趣区域的空间关系,将会大大提高分类精度。我们通过三个例子加以说明。图1所示的“高楼大厦”图像中,w1、w2、w3分别为标记窗户、楼面、天空的兴趣区域,可以发现标记窗户的兴趣区域之间存在规律性的空间关系模式,相比于底层视觉特征,这种空间关系模式更能反映图像的本质特征。在图2所示的“海岸”的场景中,三类不同的兴趣区域w3、w4、w5分别标记天空,沙滩和海洋,而这三者存在上中下的空间关系,具有一定的语义信息。再看存在视觉单词类别较多的“高速公路”场景(如图3所示),对于轿车往往存在标记后车窗、车尾、地面阴影的三类兴趣区域w6、w9、w8,而这三者也呈上中下的空间分布。此外,在该类场景中标记斑马线的视觉单词w7之间的分布也呈现某种固定的空间关系模式,如直线排列状。由此可见,在基于兴趣区域的词袋模型中,提取兴趣区域之间的空间关系特征,可以大大缩小与高层语义特征之间的鸿沟,在不明显增加时间复杂度的前提下大幅度提高图像识别的精度。
但是从上述例子也不难发现,描述感兴趣区域间的空间关系也是较为复杂的工作,其中涉及了拓扑、方向、距离等多元化的空间关系。为此,我们设计了面向图像分类的感兴趣区域多元空间关系模型,进而应用于基于词袋模型的图像分类。
发明内容:
为解决现有图像分类技术存在的问题,如基于结构的方法过度依赖前期处理、基本词袋模型缺乏空间信息等,本发明提出基于兴趣区域多元空间关系模型的图像分类方法,发明内容主要包括:感兴趣区域多元空间关系模型,本图像分类方法的流程框架以及集成了特征融合、特征选择和优化算法的分类器。
一种基于感兴趣区域多元空间关系模型的图像分类方法,至少包括以下步骤:
步骤一:对原始图像检测感兴趣区域
使用兴趣区域检测算子检测图像库中每幅图像的感兴趣区域ROI;
步骤二:提取感兴趣区域ROI的底层视觉特征
对检测到的感兴趣区域,使用底层视觉特征描述算子提取特征向量;
步骤三:提取词袋特征
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310728374.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:节能高效污水处理装置
- 下一篇:用于内夹紧的工件传送装置