[发明专利]一种模型迁移方法、装置及电子设备在审
| 申请号: | 202210665169.3 | 申请日: | 2022-06-14 |
| 公开(公告)号: | CN115131633A | 公开(公告)日: | 2022-09-30 |
| 发明(设计)人: | 周峰暐;谢传龙;董其实;胡天阳;杨永鑫;李震国 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06V10/776 | 分类号: | G06V10/776;G06V10/774;G06V10/771 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 郭建凯;陈霁 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 模型 迁移 方法 装置 电子设备 | ||
本申请涉及人工智能领域的一种模型迁移方法,包括:获取目标任务的样本数据,样本数据中包括多个图像样本;基于样本数据分别对N个预训练模型进行评估,得到N个评估值,该评估值用于表征预训练模型与目标任务间的适配度,N≥2;基于N个评估值,从N个预训练模型中确定出K个预训练模型,K个预训练模型为在对N个评估值由大到小排序后的前K个评估值对应的模型,1≤K≤N;基于K个预训练模型对样本数据进行处理,得到用于处理目标任务的目标模型,目标模型中包括K个预训练模型。由此可以从大量的预训练模型构成的模型库中,快速找到适用于当前任务的预训练模型,并能融合多个最优的预训练模型的能力共同解决当前任务,有效提升了预训练模型的分布外泛化能力。
技术领域
本申请涉及人工智能技术领域,尤其涉及一伪标签框生成方法、装置及电子设备。
背景技术
随着深度学习的飞速发展,业界、学术界在各种任务上训练了大量的深度学习模型,这使得用户可以很容易地获取到各种各样的预训练模型(即预先训练的网络模型),比如目标检测模型、动物识别模型等等。其中,每个预训练模型均是使用了大量的数据和算力训练出来的,具备各种各样不同的功能,并且功能强大。但由于目标任务往往是不可知的,而在预训练模型的训练过程中无法获得目标任务的任何信息。因此,预训练模型难以在目标任务中取得良好的表现,使得预训练模型难以迁移到下游任务上,即难以直接通过预训练模型处理下游任务。
另外,在深度学习中,通常是假设训练样本和测试样本来自同一概率分布,然后设计相应的模型,并通过训练样本对相应的模型进行处理,以得到所需的网络模型。其中,该网络模型在测试样本上预期有较好的表现。然而,在很多实际问题场景下训练样本的概率分布和测试样本的概率分布是不同的,这使得训练得到的网络模型难以适配到测试样本。例如:在图像处理场景中,由于元器件的不同导致不同型号的电子设备(比如手机等)收集到的原始图片各不相同,基于一个型号的电子设备的数据训练的网络模型很难迁移到其他的电子设备上。
因此,如何将预训练模型迁移到下游任务,以提升预训练模型的分布外泛化能力是目前亟需解决的技术问题。
发明内容
本申请提供了一种模型迁移方法、装置、电子设备、计算机存储介质及计算机程序产品,能够从大量的预训练模型中筛选出适配于目标任务的模型,以及可以将筛选出的模型组合成用于处理目标任务的模型,进而可以通过该模型对目标任务进行处理,有效提升了预训练模型的分布外泛化能力。
第一方面,本申请提供一种模型迁移方法,包括:获取目标任务的样本数据,样本数据中包括多个图像样本;基于样本数据,分别对N个预训练模型进行评估,以得到N个评估值,评估值用于表征预训练模型与目标任务间的适配度,其中,一个预训练模型对应一个评估值,N≥2;基于N个评估值,从N个预训练模型中确定出K个预训练模型,K个预训练模型为在对N个评估值由大到小排序后的前K个评估值对应的模型,1≤K≤N;基于K个预训练模型,对样本数据进行处理,得到目标模型,目标模型中包括K个预训练模型,目标模型用于处理目标任务。
这样,在确定出目标任务后,可以在大量的预训练模型构成的模型库中,快速筛选出适用于目标任务的预训练模型,并根据筛选出的预训练模型,得到适于处理目标任务且包含有筛选出的预训练模型的目标模型,进而可以通过该目标模型对目标任务进行处理,有效提升了预训练模型的分布外泛化能力。
在一种可能的实现方式中,基于目标任务的样本数据,分别对N个预训练模型进行评估,以得到N个评估值,具体包括:将样本数据切分为M份数据,M≥2;从M份数据中选取一份数据作为验证数据,并将M份数据中剩余的数据作为训练数据;基于训练数据和验证数据,分别确定各个预训练模型的第一有效性值,以及,分别确定各个预训练模型的第一稳定性值,其中,第一有效性值用于表征通过预训练模型从训练数据提取到的特征,对验证数据的标签进行预测的准确度,第一稳定性值用于表征通过预训练模型提取到的训练数据的特征和提取到的验证数据的特征间的相似度;基于各个预训练模型的第一有效性值和第一稳定性值,确定出N个评估值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210665169.3/2.html,转载请声明来源钻瓜专利网。





