[发明专利]一种基于适配器的迁移学习方法、装置、设备及存储介质在审
申请号: | 202111396195.2 | 申请日: | 2021-11-23 |
公开(公告)号: | CN114091452A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 王伟;黄勇其;于翠翠;张黔 | 申请(专利权)人: | 润联软件系统(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 刘畅 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 适配器 迁移 学习方法 装置 设备 存储 介质 | ||
1.一种基于适配器的迁移学习方法,其特征在于,包括:
基于预设的全连接网络和transformer模型的编码器构建初始迁移学习模型,其中,所述初始迁移学习模型包括若干个适配器;
获取训练样本,并对训练样本进行预处理,得到训练样本对应的词向量;
通过所述词向量对所述初始迁移学习模型进行预训练,获取预训练结果;
基于所述预训练结果计算每一个所述适配器的沙普利值,并对每一个所述适配器的沙普利值进行降序排列,得到适配器贡献队列;
通过所述适配器贡献队列对所述初始迁移学习模型的适配器进行调整,并对调整后的所述初始迁移学习模型进行迭代,得到自注意力迁移学习模型;
获取待迁移语料,并将所述待迁移语料导入所述自注意力迁移学习模型,生成知识迁移结果。
2.如权利要求1所述的基于适配器的迁移学习方法,其特征在于,所述获取训练样本,并对训练样本进行预处理,得到训练样本对应的词向量的步骤,具体包括:
获取训练语料,按照段落或者语句对所述训练语料进行划分,得到训练样本集合,其中,所述训练样本集合包含若干个训练样本;
对所述训练样本进行分词处理,得到样本分词;
对所述样本分词进行向量转化,得到所述样本分词对应的词向量。
3.如权利要求2所述的基于适配器的迁移学习方法,其特征在于,所述对所述样本分词进行向量转化,得到所述样本分词对应的词向量的步骤,具体包括:
识别所述样本分词的文本,并从预设词向量库中获取所述文本对应的词嵌入向量;
获取所述样本分词的位置信息,并对所述位置信息进行编码,得到位置向量;
识别所述样本分词的知识实体,并从所述词向量库中获取所述知识实体对应的知识向量;
对所述词嵌入向量、所述位置向量和所述知识向量进行求和,生成所述样本分词对应的词向量。
4.如权利要求2所述的基于适配器的迁移学习方法,其特征在于,所述全连接网络包括第一全连接层和第二全连接层,所述第一全连接层的输出与所述编码器的输入连接,所述编码器的输出与所述第二全连接层的输入连接,所述通过所述词向量对所述初始迁移学习模型进行预训练,获取预训练结果的步骤,具体包括:
将所述词向量作为初始输入向量输入到所述第一全连接层,并在所述第一全连接层进行线性映射,得到第一映射向量;
将第一映射向量输入到所述编码器,并在所述编码器中对所述第一映射向量进行特征编码,得到特征编码向量;
将所述特征编码向量输入到所述第二全连接层,并在所述第二全连接层进行线性映射,得到第二映射向量;
将所述第二映射向量作为所述初始迁移学习模型输出的预训练结果。
5.如权利要求1所述的基于适配器的迁移学习方法,其特征在于,所述基于所述预训练结果计算每一个所述适配器的沙普利值的步骤,具体包括:
获取每一个所述适配器的输出向量;
基于预设的价值函数计算每一个所述输出向量与预训练结果之间的余弦相似度;
基于每一个所述输出向量与预训练结果之间的余弦相似度计算对应适配器的沙普利值。
6.如权利要求5所述的基于适配器的迁移学习方法,其特征在于,所述沙普利值的计算公式如下:
其中,φi(υ)为适配器的沙普利值,υ为价值函数,N表示所有可能的适配器组合,S是N的子集,I为任意一个适配器,υ(S)表示适配器组合S的贡献度,υ(S∪{I})表示适配器组合S与适配器I的贡献度总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润联软件系统(深圳)有限公司,未经润联软件系统(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111396195.2/1.html,转载请声明来源钻瓜专利网。