[发明专利]模型训练方法、装置、电子设备及计算机存储介质在审
申请号: | 202011505035.2 | 申请日: | 2020-12-18 |
公开(公告)号: | CN114648110A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 桂敏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/02 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;林鑫 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 电子设备 计算机 存储 介质 | ||
1.一种模型训练方法,其包括:
获取预训练样本数据,所述预训练样本数据包括多模态数据;
利用所述预训练样本数据对神经网络模型中的编码器进行预训练,获得预训练完成的编码器;
获取预训练完成的所述编码器对所述预训练样本数据进行处理后输出的特征表示,以及与所述特征表示对应的预训练参考样本;
利用所述特征表示与所述预训练参考样本对所述神经网络模型中的解码器进行预训练。
2.根据权利要求1所述的方法,其中,所述利用所述预训练样本数据对神经网络模型中的编码器进行预训练,获得预训练完成的编码器,包括:
对所述预训练样本数据中至少一种模态的数据进行添加噪声的处理得到包含噪声的预训练样本数据;
将所述包含噪声的预训练样本数据输入所述编码器,对所述编码器进行预训练,获得预训练完成的编码器。
3.根据权利要求2所述的方法,其中,所述对所述预训练样本数据中至少一种模态的数据进行添加噪声的处理得到包含噪声的预训练样本数据,包括:
对所述预训练样本数据中至少一种模态的数据进行遮盖得到所述包含噪声的预训练样本数据。
4.根据权利要求1所述的方法,其中,所述利用所述特征表示与所述预训练参考样本对所述神经网络模型中的解码器进行预训练,包括:
将所述预训练参考样本进行添加噪声的处理得到包含噪声的预训练参考样本;
将所述包含噪声的预训练参考样本与对应的所述特征表示输入所述解码器,对所述解码器进行预训练。
5.根据权利要求4所述的方法,其中,所述将所述包含噪声的预训练参考样本与对应的所述特征表示输入所述解码器,对所述解码器进行预训练,包括:
将所述特征表示输入所述解码器得到对应的解码器的输出,将所述解码器的输出与所述预训练参考样本进行比较,根据比较结果,在预训练完成的所述编码器的参数固定的前提下,调整所述解码器的参数。
6.根据权利要求4所述的方法,其中,所述将所述预训练参考样本进行添加噪声的处理得到包含噪声的预训练参考样本,包括:
将所述预训练参考样本分割为至少两个短语,将所述至少两个短语打乱顺序,并得到所述包含噪声的预训练参考样本。
7.根据权利要求4所述的方法,其中,所述将所述预训练参考样本进行添加噪声的处理得到包含噪声的预训练参考样本,包括:
将所述预训练参考样本进行短语删除或短语遮盖,并得到所述包含噪声的预训练参考样本。
8.根据权利要求1所述的方法,其中,所述利用所述特征表示与所述预训练参考样本对所述神经网络模型中的解码器进行预训练之后,还包括:
获取模型训练样本数据,将所述模型训练样本数据输入预训练完成的所述编码器得到特征表示;将所述特征表示与解码任务对应的模型参考样本输入预训练后的所述解码器,对预训练后的所述解码器进行训练。
9.根据权利要求8所述的方法,其中,所述多模型训练样本数据包括商品的多模态数据,所述模型参考样本包括商品的卖点数据;
所述将所述特征表示与解码任务对应的模型参考样本输入预训练后的所述解码器,对预训练后的所述解码器进行训练,包括:
将所述特征表示以及对应的所述商品的卖点数据输入预训练后的所述解码器,对所述解码器进行训练。
10.根据权利要求8所述的方法,其中,所述模型训练样本数据包括用于搜索的多模态数据,所述模型参考样本包括搜索结果;
所述将所述特征表示与解码任务对应的模型参考样本输入预训练后的所述解码器,对预训练后的所述解码器进行训练,包括:
将所述特征表示以及对应的搜索结果输入预训练后的所述解码器,对所述解码器进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011505035.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:清洗架
- 下一篇:拍摄角度变化的检测方法、装置、电子设备及存储介质