[发明专利]一种最大熵约束的类别软标签识别训练方法有效
申请号: | 202211463854.4 | 申请日: | 2022-11-22 |
公开(公告)号: | CN115511012B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 姚亚洲;黄丹;孙泽人;沈复民 | 申请(专利权)人: | 南京码极客科技有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/74;G06V10/764;G06V10/82;G06N3/04;G06N3/09 |
代理公司: | 安徽宏铎知识产权代理事务所(普通合伙) 34250 | 代理人: | 菅秀君 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 最大 约束 类别 标签 识别 训练 方法 | ||
1.一种最大熵约束的类别软标签识别训练方法,其特征在于,包括如下步骤:
S1.首先在一个含噪声的网络数据集D上训练深度网络模型,通过交叉损失函数得到次有的模型;
S2.基于软标签的类别正则化方法,来获取每个类别的软标签,其具体的方法步骤为:
S21.借助概率分布预测对软标签进行预测;
S22.采用指数平滑来缓解模型预测结果不稳定导致的软标签波动;
S23.获取软标签后,使用t-1周期估计出的软标签St-1来监督周期t的训练过程,利用训练损失函数提升细粒度识别任务的分类准确率;
S24.采用最大熵约束来引导模型输出更加平滑的预测概率分布;
S3.采用类别正则优化方法后,获取每个类别的软标签,利用类别软标签从实例的角度,利用类别软标签进行噪声净化,具体步骤为:
S31.首先,采用JS散度来度量每个样本的概率分布和它对应的类别软标签之间的距离,并以此作为噪声识别准则;
S32.使用一个阈值,根据JS散度距离来区分干净样本和噪声样本;
S33.在模型的预处理阶段结束后,实例噪声净化根据阈值将每个训练集中的小批次数据划分为干净批和噪声批;
S34.完成标签噪声识别后,计算噪声样本的概率分布与期预测类别的软标签之间的JS散度距离;
S35.使用一个硬阈值,在噪声批中进一步筛选可重标注的样本;
S36.将筛选的重标注的样本放入噪声批中,进行进一步地筛选,其余样本直接丢弃,不参与训练;
在S1中,网络数据集为D={(xi,yi)|1≤i≤N},其中xi和yi分别表示第i个训练样本和对应的网络标签,N代表样本总数;独热分布形式的网络标签yi的标签分布q表示为q(c=yi|xi)=1,q(c≠yi|xi),深度神经网络对于每个输入的样本xi产生一个概率分布预测p(c|xi),其中c表示第c类类别;每个训练样本的概率分布预测p(c|xi)与其标签分布q之间的交叉熵损失函数为:
C表示类别总数;
在S23中,获取软标签后,使用t-1周期估计出的软标签St-1来监督周期t的训练过程,软标签训练损失函数如下:
软标签损失函数LSoft为非目标的类别分配了权重;
在S24中,通过最大熵约束来引导模型输出更加平滑的预测概率分布,其公式为:
最大熵约束LME的目的是增加预测概率分布p(xi)的熵。
2.根据权利要求1所述的一种最大熵约束的类别软标签识别训练方法,其特征在于,在S2中,定义软标签S={S0,S1,…,St,…,ST-1}为T个训练周期中各个类别的软标签集合,对于每个训练周期t,软标签集合St是一个C×C的矩阵,其每列分别对应一个类别的软标签;软标签S0初始化为零矩阵,并在训练过程中动态更新;对于每个输入样本xi,当其预测结果与对应的标签yi一致,那么类别yi的软标签会借助预测的概率分布p(xi)以如下方式更新:
M是预测结果与标签yi一致的样本数;
为了让估计到的软标签St更加稳定,采用指数平滑方法来融合以往训练周期的软标签估计结果,公式如下:
其中,m表示为控制以往结果权重大小的动量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京码极客科技有限公司,未经南京码极客科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211463854.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于陶瓷基底的耐磨银涂料及其制备方法
- 下一篇:一种病患喂药器