[发明专利]一种基于多尺度显著图定位的细粒度图像分类方法在审

申请号：	202011471681.1	申请日：	2020-12-14
公开（公告）号：	CN112446354A	公开（公告）日：	2021-03-05
发明（设计）人：	张雨晨;邢建国	申请（专利权）人：	浙江工商大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62;G06N3/04
代理公司：	杭州天昊专利代理事务所(特殊普通合伙) 33283	代理人：	赵志鹏
地址：	310018 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于尺度显著定位细粒度图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多尺度显著图定位的细粒度图像分类方法，其特征在于：具体包括如下步骤：

101)预处理步骤：对图片进行预处理，将其统一大小为448×448×3，采用ResNet-50作为模型特征提取网络来对图片进行处理，分别对ResNet-50处理后的conv3_4、conv4_6层进行1×1卷积，卷积后进行SG约束，约束1×1卷积后的特征图按语义进行分组，分组数量为G个，此处G分别为5和3；

102)获取代表性特征图步骤：对步骤101)中分组后得到的特征图进行组内按通道进行求和，再取平均数，得到代表性特征图；对ResNet-50处理后的最后一层conv5_3处的特征图，进行按通道求和并求均值，得到数量为1的特征图，从而得到三组的每个通道的特征图，即conv3_4、conv4_6、conv5_3处分别得到5个通道、3个通道、1个通道的代表性特征图；

103)图像块获取步骤：对三组的每个通道的特征图进行激活得到梯度图，选择梯度图中最大响应点作为关键点，然后以关键点为中心生成边框，按边框四角坐标在原图上进行裁剪得到图像块；

104)训练预测步骤：将步骤103)获得的不同尺度不同位置的图像块，将其放入ResNet-50网络中进行训练得到训练模型；将原图进过训练模型预测的结果和所有图片块依次进过训练模型取得的预测结果进行取平均，得到最后的分类结果。

2.根据权利要求1所述的一种基于多尺度显著图定位的细粒度图像分类方法，其特征在于：设定一个卷积特征X∈R^N×HW，将每个通道表示为一个特征图m_i∈R^HW，其中i∈[1,N]，m_i表示第i个通道上的特征图；

每一个特征图作为一个语义空间，将其划分为G组，则S(m_i)∈[1,G],S(m_i)是一个映射方程，该方程映射一个通道到语义组，卷积通道被均匀的分组；若则有S(m_i)＝S(m_j)；为了得到语义组各分组的特征，首先安排通道到语义分组的次序，具体的定义公式如下：

其中，A^T∈R^N×N为语义映射矩阵，由于不同的语义部分位于给定图像的不同区域，对应于卷积特征的不同位置，利用此信息进行语义分组；

令所有的特征图即对相同或者不同语义组的通道进行优化，使其在空间上共享相应的大小重叠区，具体通过语义分组损失函数进行具体确认，具体公式如下：

其中，m_i,m_j两两特征图的成对关系为d_ij反映两个特征图的距离，即m_i,m_j特征相似性的程度。

3.根据权利要求1所述的一种基于多尺度显著图定位的细粒度图像分类方法，其特征在于：步骤103)的具体处理如下：

对每个通道的平均输出相当于输入图像像素的梯度，具体公式如下：

其中，p表示特征图的通道索引，1≤p≤P；j和j′是通道中输出元素的索引；

梯度的绝对值显示图像中哪些像素对通道的输出有最大的影响，使用最大激活点从这些图中计算训练图像的部分建议位置，具体公式如下：

使用归一化将部分建议位置μ_i,p∈[0,1]²作为输入，若通道的激活映射等于0，则认为该部分建议是隐藏的，将此部分作为训练的一部分，实现了卷积神经网络学习了一个隐式检测器。

4.根据权利要求1所述的一种基于多尺度显著图定位的细粒度图像分类方法，其特征在于：还包括补偿步骤，采用中心损失和交叉熵损失联合对神经网络进行约束，中心损失具体采用如下公式：

其中，表示第y_i个类别的特征中心，x_i表示全连接层之前的特征；m表示mini-batch的大小；

交叉熵损失具体采用如下公式：

其中，i表示图片，y_i表示图片预测的类别，表示图片真实的标签；

两者整合后的最终约束公式如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工商大学，未经浙江工商大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011471681.1/1.html，转载请声明来源钻瓜专利网。

上一篇：基于深度卷积神经网络的视频图像道线检测方法
下一篇：一种可移动便携电源

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多尺度显著图定位的细粒度图像分类方法在审

专利文献下载