[发明专利]一种基于多专家系统和知识蒸馏的众包图像学习方法有效
申请号: | 202210205861.8 | 申请日: | 2022-03-04 |
公开(公告)号: | CN114299349B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 李绍园;侍野 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 青岛锦佳专利代理事务所(普通合伙) 37283 | 代理人: | 朱玉建 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 专家系统 知识 蒸馏 图像 学习方法 | ||
1.一种基于多专家系统和知识蒸馏的众包图像学习方法,其特征在于,
包括如下步骤:
步骤1.获取图像集X,将图像集X随机分发给标注者进行标注,获得众包标注集
步骤2.将图像集X和众包标注集作为训练集,训练一个深度众包学习模型h0;
步骤3.使用训练好的深度众包学习模型h0,生成第一真实标记预测
步骤4.将图像集X和第一真实标记预测作为训练集,训练一个无噪声建模的噪声标记学习模型h1;
步骤5.使用训练好的无噪声建模的噪声标记学习模型h1,生成第二真实标记预测
步骤6.将图像集X、众包标注集第二真实标记预测作为训练集,重新训练一个深度众包学习模型h2;
步骤7.对于未知图像,使用步骤4得到的无噪声建模的噪声标记学习模型h1以及步骤6得到的深度众包学习模型h2,预测标记未知图像的真实标记;
所述步骤2中,深度众包学习模型的具体形式如下:
h=h(·;Θ0),g=g(·;{W},b);
其中,h是一个深度神经网络分类器,其网络参数为Θ0;g是一个众包标注融合器,其参数为{W}和b;h(·;Θ0)和g(·;{W},b)括号中的“·”表示函数的输入;
对于单张图像x∈X,相应的众包标注向量h与g的输出形式如下:
h=h(x;Θ0);
其中,b表示偏差向量,S表示softmax函数;
m表示第m个标注者,M表示标注者的总数;表示图像x由第m个标注者所提供的众包标注,是一个范围为[0,C]的整数,C表示图像标记的类别数量;
表示的独热编码形式,的长度等于类别数量C;
Wm∈{W}表示第m个标注者对应的转置噪声转移矩阵,Wm是一个C×C的方阵;表示当第m个标注者将图像x标注为第c个类别,其真实标记类别为j的概率;
该深度众包学习模型的具体损失函数形式如下:
由上述公式得知,该损失函数包括两项,第一项表示最小化h和g对于同一张图像的预测一致性,第二项表示最大化h和g对于不同图像的预测不一致性;
其中,h(X)表示分类器h对于所有样本真实标记的预测概率,表示众包标注融合器对所有众包标记的融合结果,表示h(X),之间的损失函数;
xi表示图像集X中第i张图像,N为图像集X中图像的总数;
表示第i张图像的众包标记,h(xi)c表示分类器h对于xi真实标记预测为第c个类别的概率,表示众包标注融合器g对于融合结果为第c个类别的概率;
对于任意输入z,f(z)表示KL散度函数以f-散度形式表现时的生成函数;表示f(z)对于输入z的偏导数,而则表示为f的Fenchel对偶项;
c表示为第c个类别,且c∈{1,2,……,C},是一个整数;f(z)、以及的具体形式如下:f(z)=zlogz;
该深度众包学习模型最小化损失函数L0,并且使用基于SGD的优化方法更新网络参数Θ0,最后返回训练完成的深度神经网络分类器h(·;Θ0),记为深度众包学习模型h0;
所述步骤3中,第一真实标记预测的生成公式如下:
其中,x是图像集X中任意单张图像,即x∈X;
为深度众包学习模型h0对x的预测结果,表示选择预测概率h0(x)中最大值的索引,记为c,也就是最终分类器模型对x真实标记的预测结果;
所述步骤4中,无噪声建模的噪声标记学习模型的具体形式如下:h=h(·;Θ1),记为h1(xi);其中,h是一个深度神经网络分类器,其网络参数为Θ1;
给定图像集X和第一真实标记预测则噪声标记学习模型的训练过程如下:
步骤4.1.输入图像集X和第一真实标记预测
步骤4.2.输入超参数α、β;
步骤4.3.初始化当前训练回合q=0,输入最大训练回合数T;
步骤4.4.初始化深度神经网络分类器h(·;Θ1)与滑动平均预测结果t;
步骤4.5.判断当前训练回合q是否小于最大训练回合数T;如果当前训练回合q未达到最大训练回合数T,则进入步骤4.6;否则,进入步骤4.12;
步骤4.6.从剩余的图像子集中取出一批量的图像;
其中,图像子集是指将图像集X随机打乱样本顺序,接着按给定的批量长度将数据集X划分出的多个图像子集,每个图像子集称为一批量的图像;
步骤4.7.更新滑动平均预测结果t,其更新过程如下:
ti←βti+(1-β)h1(xi);
其中,超参数β表示滑动平均的动量;
步骤4.8.计算该无噪声建模的噪声标记学习模型的损失函数L1,具体形式如下:
由损失函数L1公式得知,该损失函数包括两项,第一项为对于原始的带噪标记的拟合函数,H表示交叉熵函数,第二项表示对于生成的滑动平均预测结果ti的拟合函数;
其中,超参数α表示损失函数L1中第一项与第二项之间的平衡系数;
表示第i个样本的第一真实标记预测;
ti表示截止到第q轮训练回合的分类器h对于样本xi的滑动平均预测结果;
其中,i∈{0,1,…,B},B表示该批量图像的总数;
xi表示该批量图像中第i张图像,h(xi)表示分类器h对于样本xi的真实标记预测;
步骤4.9.使用SGD更新网络参数Θ1;
步骤4.10.判断是否遍历完所有批量的数据,如果是则进入步骤4.11,否则返回步骤4.6;
步骤4.11.当前训练回合数q加1,返回步骤4.5;
步骤4.12.返回训练完成的深度神经网络分类器h(·;Θ1);
将训练好的深度神经网络分类器h(·;Θ1),记为无噪声建模的噪声标记学习模型h1;
该噪声标记学习模型h1为第一个进行图像识别的专家网络;
所述步骤5中,第二真实标记预测的生成公式如下:
其中,表示第i个样本的第二真实标记预测;
所述步骤6中,深度众包学习模型的具体形式如下:
h=h(·;Θ2);g=g(·;{W},b);
其中,h是一个深度神经网络分类器,其网络参数为Θ2;g是一个众包标注融合器,其参数为{W}和b;h(·;Θ2)和g(·;{W},b)中的“·”号表示函数的输入;
该深度众包学习模型的具体损失函数L2形式如下:
其中,以及均表示损失函数;
损失函数L2包含两项,第一项为对于众包标记集合的拟合函数,第二项为对于第二真实标记预测的拟合函数,λ是这两项的平衡系数;
知识蒸馏是指一个深度神经网络模型即学生网络通过拟合另外一个深度神经网络模型即教师网络的输出结果,学习教师网络所包含的知识;
将步骤4中训练所得的网络h1作为教师网络,学生网络h2通过知识蒸馏的方式从教师网路h1处吸收知识,而蒸馏使用的拟合损失函数即为
该深度众包学习模型最小化损失函数L2,并且使用基于SGD的优化方法更新网络参数Θ2,该步骤最后返回训练完成的深度神经网络分类器h(·;Θ2);
将训练好的深度神经网络分类器h(·;Θ2),记为深度众包学习模型h2;
该深度众包学习模型h2为第二个进行图像识别的专家网络;
所述步骤7具体为:
对于标记未知的单张图像x,其预测结果由h1以及h2共同决定,具体形式如下:
其中,h1(x)表示步骤4中得到的无噪声建模的噪声标记学习模型h1,h2(x)表示步骤6中得到的深度众包学习模型h2,值为h1、h2共同预测概率的最大值索引;
h1(x)、h2(x)为两个专家网络,组成多专家系统,共同预测图像x的真实标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210205861.8/1.html,转载请声明来源钻瓜专利网。