[发明专利]基于公共字典对和类依赖字典对的细粒度图像分类方法在审
申请号: | 201611035991.2 | 申请日: | 2016-11-22 |
公开(公告)号: | CN106778807A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 郭继昌;张帆;王楠 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 公共 字典 依赖 细粒度 图像 分类 方法 | ||
技术领域
本发明属于数字图像处理领域,具体涉及一种基于公共字典对和类依赖字典对的细粒度图像分类方法。
背景技术
传统的图像分类主要是指粗粒度图像分类,此时是对语义差别比较大的不同种类的图像进行分类。例如Caltech-101图像库中102类不同种类的图像,其中包括人造工具、动物、植物等,这些图像间的差异性较明显因此分类较容易,图1(a)所示是鸽子和海马的对比图。
近年来细粒度图像分类在计算机视觉研究中的意义越来越明显,与粗粒度图像分类相比,它采用的图像库往往包含多种语义近似的物体图像,例如Stanford Dogs图像库包含了120种不同种类的狗的图片,Oxford Flower-17图像库包含了17种不同种类的花的图片,图1(b)所示是向日葵和蒲公英的对比图。细粒度图像分类的图像间差异性较弱,因此对细粒度图像进行分类更加具有挑战性。
随着稀疏表示技术的发展,研究者们逐渐发现字典性能的好坏直接关系到最后的分类结果。在基于稀疏表示的分类方法中字典既要被用来对样本进行稀疏编码,又要被用于执行最后的分类判别,因此本文将重点讨论如何从训练样本中学习到一个同时具有良好的表示能力和判别能力的字典。
发明内容
为克服现有技术的不足,本发明旨在实现字典具有更强的判别性,避免对标准稀疏编码问题的求解,大大缩短分类用时,使系数具有一定的判别性。为此,本发明采用的技术方案是,基于公共字典对和类依赖字典对的细粒度图像分类方法,步骤如下:
(1)提取图像库训练样本的SIFT特征矩阵,然后通过K-奇异值分解方法K-SVD得到初始化字典;
(2)建立基于公共字典对和类依赖字典对的字典学习模型,字典学习模型中包含数据保真项,字典判别性约束项和系数判别性约束项,通过以上各项使字典具有更好的判别性;
(3)采用迭代方法求解第2步中建立的字典模型,得到综合字典D和解析字典P,然后通过解析字典求解测试样本的稀疏表示矩阵;
(4)根据最小化重建误差的方法确定图像所属类别。
步骤1,提取数据集中图像的SIFT特征具体是:
(1.1)将每幅图像以6像素为间隔,划分为16×16的图像块,提取出图像的原始稠密SIFT特征;
(1.2)然后对原始特征在1×1、2×2、4×4三种尺度下进行空间金字塔最大池化,得到SIFT池化特征;
(1.3)通过K-means方法对池化特征进行稀疏编码,对每幅图像的所有稀疏编码运用空间金字塔最大化池方法,得到21个1024维的稀疏编码的池化特征,连接这21个稀疏编码的池化特征得到一个21504维的图像描述向量;
(1.4)通过PCA降维得到3000维的特征。
步骤(2)建立字典学习模型具体是,字典模型的目标函数J(D,P,X)表示为下式,其中r(Yi,Di,Pi,Xi)是数据保真项,h(Di,Pi)是字典判别性约束项,f(Xi)是系数判别性约束项;
其中D、P、X分别是综合字典、解析字典和样本的稀疏系数矩阵,Yi是第i类样本的特征矩阵,Xi是第i类样本对应的稀疏系数矩阵,K是样本的类别数,τ、ω是各项的权重系数;将每类的综合字典分成两部分其中D0是公共字典,是类依赖字典,最后得到K类的结构化综合字典为将每类的解析字典也分成两部分结构化解析字典为Xi是样本的稀疏系数矩阵;
(2.1)采用结构化表示的重建误差项:
(2.2)求取模型的字典判别性约束项,通过训练得到每类的子字典对{Di,Pi},将最小化作为解析字典Pi的判别性约束项,上式写成其中是在Y中删除第i类样本Yi后的剩余矩阵;
(2.3)对系数添加Fisher判别性约束项,最后获得的字典模型为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611035991.2/2.html,转载请声明来源钻瓜专利网。