[发明专利]多任务模型迁移训练方法、装置、计算机设备及存储介质在审

申请号：	202210303615.6	申请日：	2022-03-24
公开（公告）号：	CN114781490A	公开（公告）日：	2022-07-22
发明（设计）人：	王宇杰	申请（专利权）人：	北京市商汤科技开发有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京中知恒瑞知识产权代理事务所(普通合伙) 11889	代理人：	袁忠林
地址：	100080 北京市海淀区北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	任务模型迁移训练方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种多任务模型迁移训练方法、装置、计算机设备及存储介质，该方法包括：获取利用多个预设任务的训练样本训练得到的初始网络模型；其中，所述多个预设任务包括目标任务；将所述目标任务对应的多个目标训练样本输入初始网络模型，经过所述初始网络模型对每个目标训练样本进行处理，分别确定所述初始网络模型对应于每个目标训练样本的参数梯度信息；基于每个目标训练样本对应的参数梯度信息，确定所述初始网络模型对应的参数调整信息；基于所述参数梯度信息和所述参数调整信息，对所述初始网络模型中的初始参数进行调整，得到目标参数，以及包括所述目标参数的目标网络模型。

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种多任务模型迁移训练方法、装置、计算机设备及存储介质。

背景技术

用大量的、多种类型的任务的训练数据预训练得到一个预训练模型，然后迁移到下游具体的任务上来应用是计算机视觉技术领域的标准流程。预训练模型在下游任务迁移时，往往直接采用线性探测或微调的方式来对预训练模型进行进一步的调整和训练。然而，当下游任务数据量很小时，这些方式会导致调整后的目标模型在性能上有较大的损失，原因是预训练模型包含大量不同任务类型的信息，而下游任务只需其中的部分信息，当下游任务数据量很小时，难以从预训练模型中提取或调整得到与下游任务匹配的信息，导致调整后的目标模型在性能上有较大的损失。另外，由于在调整过程中利用上游相同类型的任务的训练数据，所以造成对上游训练数据依赖的问题。

发明内容

本公开实施例至少提供一种多任务模型迁移训练方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种多任务模型迁移训练方法，包括：

获取利用多个预设任务的训练样本训练得到的初始网络模型；其中，所述多个预设任务包括目标任务；

将所述目标任务对应的多个目标训练样本输入初始网络模型，经过所述初始网络模型对每个目标训练样本进行处理，分别确定所述初始网络模型对应于每个目标训练样本的参数梯度信息；

基于每个目标训练样本对应的参数梯度信息，确定所述初始网络模型对应的参数调整信息；其中，所述参数调整信息为用于对所述参数梯度信息进行调整的信息；

基于所述参数梯度信息和所述参数调整信息，对所述初始网络模型中的初始参数进行调整，得到目标参数，以及包括所述目标参数的目标网络模型。

该方面，参数梯度信息能够表征参数变化的规律，利用各个目标训练样本对应的参数梯度信息，能够较为准确地确定参数调整信息，该参数调整信息用于对参数的变化梯度进行调整；之后，结合参数梯度信息和参数调整信息两种信息，共同对初始参数进行调整，能够有效提高参数调整的准确度，避免任务迁移过程中的性能损失，克服了现有技术中由于训练样本数量小造成的参数调整精度不够的缺陷；另外，利用该方面的技术方案进行参数调整，可以避免利用上游相同类型的任务的训练样本进行参数调整，克服了对上述训练样本的依赖的问题。

一种可选的实施方式中，所述参数梯度信息包括所述初始网络模型中的多个初始参数中每个初始参数对应的参数梯度子信息；

所述基于每个目标训练样本对应的参数梯度信息，确定所述初始网络模型对应的参数调整信息，包括：

针对所述初始网络模型中的多个初始参数中每个初始参数，基于所述初始参数对应于各个目标训练样本的参数梯度子信息，确定所述初始参数对应的目标参数梯度子信息；

基于多个初始参数中每个初始参数对应的目标参数梯度子信息，确定所述初始网络模型对应的参数调整信息。

该实施方式中，对各个目标训练样本的参数梯度子信息进行综合处理，能够较为准确地确定表征对应的初始参数的参数变化规律的目标参数梯度子信息；之后利用目标参数梯度子信息，能够较为准确地确定对参数的变化梯度进行调整的参数调整信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司，未经北京市商汤科技开发有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210303615.6/2.html，转载请声明来源钻瓜专利网。