[发明专利]模型间的特征兼容学习方法、装置、电子设备及介质有效
申请号: | 202110750264.9 | 申请日: | 2021-07-01 |
公开(公告)号: | CN113610106B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 段凌宇;白燕;吴生森 | 申请(专利权)人: | 北京大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/74;G06V10/764;G06V20/40 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 谷波 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 特征 兼容 学习方法 装置 电子设备 介质 | ||
1.一种模型间的特征兼容学习方法,其特征在于,包括:
根据第一模型确定的模型参数和第二模型待学习的模型参数以及新训练数据集,确定第一模型和第二模型的特征兼容学习信息,所述特征兼容学习信息包括代表特征迁移损失和/或网络组件的结构正则,所述新训练数据集用于第二模型训练;
将所述特征兼容学习信息以及用于监督第二模型的目标损失共同作为第二模型最终的优化目标,以完成第一模型和第二模型间的特征兼容学习。
2.根据权利要求1所述的方法,其特征在于,所述确定第一模型和第二模型的代表特征迁移损失,包括:
使用第一模型提取新训练数据集中所有样本的特征,得到第一模型特征;
基于第一模型特征,提取第一模型对应的每个类别的代表特征;
使用第二模型提取新训练数据集中所有样本的特征,得到第二模型特征,对于每个第二模型特征,计算其与各所述代表特征的相似度;
计算基于所述相似度的代表特征迁移损失,以实现第一模型和第二模型的特征兼容;
所述代表特征迁移损失的表达式如下:
其中,为第二模型参数,Mo为第一模型代表特征的集合,TN为新训练数据集,符号.,.代表样本特征的余弦距离,xc为类别标签为c的样本,为c类别的代表特征。
3.根据权利要求1或2所述的方法,其特征在于,所述第一模型的网络组件包括第一特征提取模块和第一任务头模块;所述第二模型的网络组件包括第二特征提取模块和第二任务头模块。
4.根据权利要求3所述的方法,其特征在于,所述确定第一模型和第二模型的网络组件的结构正则,包括:
确定第一特征提取模块和第二任务头模块重组后的第一重组网络的第一监督损失;
确定第二特征提取模块和第一任务头模块重组后的第二重组网络的第二监督损失;
根据第一监督损失和第二监督损失确定第一模型和第二模型相互结构正则化的优化目标;
所述优化目标的表达式如下:
其中,LCE_O为第一监督损失,LCE_N为第二监督损失;
代表使用第一特征提取模块和第二任务头模块hN在数据集TN上进行特定的目标任务,TN为新训练数据集;
代表使用第二特征提取模块和第一任务头模块hO在数据集tN′上进行特定的目标任务,tN′为新训练数据集与旧训练数据集中具有相同类别的样本集合,所述旧训练数据集用于第一模型训练。
5.一种模型间的特征兼容学习装置,其特征在于,包括:
确定模块,用于根据第一模型确定的模型参数和第二模型待学习的模型参数以及新训练数据集,确定第一模型和第二模型的特征兼容学习信息,所述特征兼容学习信息包括代表特征迁移损失和/或网络组件的结构正则,所述新训练数据集用于第二模型训练;
特征兼容模块,用于将所述特征兼容学习信息以及用于监督第二模型的目标损失共同作为第二模型最终的优化目标,以完成第一模型和第二模型间的特征兼容学习。
6.根据权利要求5所述的装置,其特征在于,所述确定模块,具体用于:
使用第一模型提取新训练数据集中所有样本的特征,得到第一模型特征;
基于第一模型特征,提取第一模型对应的每个类别的代表特征;
使用第二模型提取新训练数据集中所有样本的特征,得到第二模型特征,对于每个第二模型特征,计算其与各所述代表特征的相似度;
计算基于所述相似度的代表特征迁移损失,以实现第一模型和第二模型的特征兼容;
所述代表特征迁移损失的表达式如下:
其中,为第二模型参数,Mo为第一模型代表特征的集合,TN为新训练数据集,符号<.,.>代表样本特征的余弦距离,xc为类别标签为c的样本,为c类别的代表特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110750264.9/1.html,转载请声明来源钻瓜专利网。