[发明专利]图像分类模型训练方法、图像分类方法及对应装置有效
申请号: | 202010834837.1 | 申请日: | 2020-08-18 |
公开(公告)号: | CN111950643B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 秦永强;李素莹;宋亮;高达辉 | 申请(专利权)人: | 创新奇智(上海)科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/764;G06V10/80;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 201900 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 分类 模型 训练 方法 对应 装置 | ||
本申请涉及人工智能技术领域,提供一种模型训练方法、图像分类方法及对应装置。其中,模型训练方法包括:将训练图像输入至第一神经网络进行处理,获得第一特征图;基于第一特征图获得第一注意力图;分别根据第一注意力图中全部通道的信息和单个通道的信息对训练图像进行非均匀采样,获得第一采样图像和第二采样图像;将第一采样图像输入至第二神经网络进行处理,获得第一分类概率,将第二采样图像输入至第三神经网络进行处理,获得第二分类概率;根据第一分类概率和第二分类概率计算分类预测损失,并根据分类预测损失更各新神经网络的参数。该方法中的第一注意力图通过学习自动定位分类所需的关键细节,无须依赖标注信息,有利于节约训练成本。
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种模型训练方法、图像分类方法及对应装置。
背景技术
图像细分类是指对粗粒度的图像大类进行更加细致的子类划分,由于各子类间差异更加细微,因此往往只能借助于微小的局部差异才能区分出不同的类别。
目前,绝大多数的图像细分类方法遵循这样的流程框架:首先找到前景对象及其局部区域,之后分别对这些局部区域进行特征提取,最后基于提取到的特征完成分类器的训练和预测。这些方法在模型训练的时候,除了使用图像的类别标签外, 往往还需要使用局部区域位置等额外的人工标注信息,这些额外标注信息的获取成本较高,费时费力。
发明内容
本申请实施例的目的在于提供一种模型训练方法、图像分类方法及对应装置,以改善上述技术问题。
为实现上述目的,本申请提供如下技术方案:
第一方面,本申请实施例提供一种模型训练方法,包括:将训练图像输入至第一神经网络进行处理,获得所述第一神经网络输出的第一特征图;基于所述第一特征图获得第一注意力图,所述第一注意力图中像素的取值与所述训练图像中对应像素被采样到的概率正相关;根据所述第一注意力图中全部通道的信息对所述训练图像进行非均匀采样,获得第一采样图像,以及,根据所述第一注意力图中单个通道的信息对所述训练图像进行非均匀采样,获得第二采样图像;将所述第一采样图像输入至第二神经网络进行处理,获得所述第二神经网络输出的第一分类概率,以及,将所述第二采样图像输入至第三神经网络进行处理,获得所述第三神经网络输出的第二分类概率;根据所述第一分类概率以及所述第二分类概率计算分类预测损失,并根据所述分类预测损失利用反向传播算法更新所述第一神经网络、所述第二神经网络以及所述第三神经网络的参数。
在上述方法中,由于第一注意力图中像素的取值与训练图像中对应像素被采样到的概率正相关,从而根据第一注意力图对训练图像进行非均匀采样,第一注意力图中像素取值较大的区域(即注意力集中分布的区域)会被分配更多的采样点,对分类预测结果的影响也更显著。
进一步的,第一注意力图并非预先设定好的,而是基于第一神经网络计算获得的,由于第一神经网络在训练过程中会根据分类预测结果不断进行参数调整,从而第一注意力图中像素取值较大的区域会逐渐落在训练图像中有利于对其进行类别划分的关键区域。也就是说,随着训练过程的深入,第一注意力图能够逐渐定位训练图像中那些对其正确分类起关键作用的细节,这一细节定位能力通过学习自动产生,无须依赖额外的标注信息,从而可以节约训练成本,提高训练效率,改善方法的实用性。
此外,上述方法所使用的图像分类网络可视为包含两个分支网络:全局分支网络以及局部分支网络,其中,全局分支网络基于第一采样图像预测产生第一分类概率,由于第一采样图像是根据第一注意力图中全部通道的信息对训练图像进行非均匀采样得到的,所以第一采样图像中保留了训练图像的全局轮廓信息;局部分支网络基于第二采样图像预测产生第二分类概率,由于第二采样图像是根据第一注意力图中单个通道的信息对训练图像进行非均匀采样得到的,所以第二采样图像中保留了训练图像的局部细节信息。然而,在最终计算预测损失时,该方法同时考虑了第一分类概率和第二分类概率,相当于通过知识蒸馏将局部分支网络提取到的有助于图像分类的局部细节信息融入至全局分支网络,即充分、全面地利用了图像中的信息用于分类,这样训练得到的图像分类网络具有较好的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(上海)科技有限公司,未经创新奇智(上海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010834837.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种公路建设用的标线刷涂装置
- 下一篇:一种独柱墩桥梁防倾覆落梁装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序