[发明专利]一种基于层次学习的长尾分布图像识别方法有效
申请号: | 202010465621.2 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111738303B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 陈琼;林恩禄;刘庆发 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06N3/0464;G06N3/08;G06V10/774;G06V10/82 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 学习 长尾 分布 图像 识别 方法 | ||
1.一种基于层次学习的长尾分布图像识别方法,其特征在于,包括以下步骤:
1)使用预训练模型提取长尾分布图像数据中每个对象的视觉特征;
2)依据对象的视觉特征构建类与类之间的层次超类树关系,层次超类树关系通过自底向上的方式逐层构造:先求取每一类所有视觉特征的特征中心,特征中心通过对选定的多个视觉特征取平均值得到,将这些特征中心作为最底层结点,接着将得到的特征中心按照相似度关系聚类成簇,求出每一个簇的簇中心,簇中心通过对选定的多个特征中心取平均值得到,将簇中心作为该簇内所有特征中心共同的上层父结点,然后将得到的上层父节点继续按照相似度关系聚类成簇,求出每一个簇的簇中心,将新得到的簇中心作为该簇内所有节点共同的父结点,依此类推,直到最顶层只有一个簇中心为止,每一层的不同的簇中心表示该层中不同的超类;
3)依据层次超类树关系搭建层次超类树神经网络模型;
所述层次超类树神经网络模型由一个主干神经网络和多个分支神经网络组成,具体如下:
设计一个能够根据输入的x,输出对应的fI的神经网络,其中,x表示长尾分布图像数据中的图片样本,fI表示特征图,将该网络作为层次超类树神经网络模型的主干神经网络;
依据层次超类树关系,自顶向下为树中的每一层搭建一个分支神经网络,第i层分支神经网络的输入为fI和si-1,输出为si,其中,i表示层序号,取值范围为[1,M],M是层次超类树总层数,s是分支神经网络的预测输出,当分支神经网络位于第一层时,其输入只有fI,否则,分支神经网络的输入同时包含fI和上一层分支神经网络的输出si-1;
4)使用基于层次学习的方式训练层次超类树神经网络模型;
基于层次学习的方式是使用两种损失函数的加权来指导层次超类树神经网络模型的学习,该两种损失函数包括:
a、使用层次超类树神经网络模型的第i-1层输出来指导第i层参数学习的知识蒸馏损失:
式中,
i表示层次超类树神经网络模型的第i层,T是一个温度常数,c和c'表示每一层上的某一超类,si,c表示层次超类树神经网络模型第i层输出向量中与超类c相对应的分量,s'i-1,c表示层次超类树神经网络模型的第i-1层输出向量在增维后与超类c相对应的分量,是在一个样本上的知识蒸馏损失,通过累加所有样本的得到第i层的总的知识蒸馏损失
b、交叉熵分类损失:
式中,
I(.)是指示函数,yi是样本在第i层对应的真实标签,是在一个样本上的交叉熵分类损失,通过累加所有样本的得到第i层的总的交叉熵分类损失
层次超类树神经网络模型是通过使用上述两种损失函数的加权来指导学习:
式中,λ为权重系数,M为层次超类树神经网络模型的总层数,基于层次学习的方式先自顶向下逐层训练,再使用Loss微调整个层次超类树神经网络模型以得到最优的模型参数,即完成了层次超类树神经网络模型的训练;
5)用训练好的层次超类树神经网络模型对长尾分布图像数据进行识别。
2.根据权利要求1所述的一种基于层次学习的长尾分布图像识别方法,其特征在于:在步骤1)中,所述预训练模型是指能够提取出长尾分布图像数据中每一类对象有差别的视觉特征的模型,所述视觉特征是指长尾分布图像数据中对象的向量表示。
3.根据权利要求1所述的一种基于层次学习的长尾分布图像识别方法,其特征在于:所述分支神经网络对其输入的处理,包括以下步骤:
i)若输入中含有si-1,则对si-1做线性增维:
s'i-1=φi(si-1)
式中,φi(.)是第i层的线性转换函数,它将第i层的输入向量si-1增维成与第i层的输出向量si具有相同维度大小的向量s'i-1;
ii)将fI映射成高级特征:
式中,δi(.)是第i层的一个卷积神经网络,R表示实数集,W'、H'和C'分别表示高级特征的宽、高和通道数,表示属于维度大小分别为W'、H'和C'的实数集;
iii)使用一个注意力机制模块计算的注意力系数,中的每一个区域的注意力系数计算方式为:
式中,ai(.)是第i层的一个具有注意力机制功能的神经网络模块,[.,.]表示拼接操作,是指中每一块大小为1×1×C'的不同区域,共有W'×H'块;
iv)利用注意力系数计算每个通道中的所有位置的加权平均:
式中,ei,wh是对做归一化处理后的结果,⊙表示按元素乘,fi∈RC′,∑w,h表示对每一块大小为1×1×C'的不同区域的求和运算;
v)将fI映射成高级特征:
式中,ωi(.)是第i层的一个卷积神经网络,
vi)对执行全局平均池化:
vii)将f'i、fi和它们拼接起来的[f'i,fi]分别输进三个分类器Zi,1,Zi,2,Zi,3中,将这三个分类器输出的结果取平均作为分支神经网络的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010465621.2/1.html,转载请声明来源钻瓜专利网。