[发明专利]一种基于提升方法的向量编码方法在审
申请号: | 202210201838.1 | 申请日: | 2022-03-03 |
公开(公告)号: | CN114723039A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 赵天成;张璐 | 申请(专利权)人: | 宏龙科技(杭州)有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06N5/04 |
代理公司: | 杭州知见专利代理有限公司 33295 | 代理人: | 卢金元 |
地址: | 310000 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 提升 方法 向量 编码 | ||
1.一种基于提升方法的向量编码方法,其特征在于,包括模型训练方法和编码方法,模型训练方法包括以下步骤:
S1、将已经训练完成的原始模型作为老师模型T,将若干个轻量模型作为学生模型;
S2、训练第一个学生模型S1时,按照老师-学生模式对S1进行蒸馏训练,损失函数为:
B为训练数据的一个子集,Li是第B中的第i条数据,S1(Li)是指Li输入到学生模型S1后的输出,T(Li)是指Li输入到老师模型T后的输出;并生成第一个遮罩;
S3、训练第N个学生模型SN时,生成第N个遮罩,将训练数据输入老师模型所得到的结果和同样的训练数据分别输入前N-1次训练得到的N-1个学生模型后所得的结果的加和作差,再将所得残差加上第N个遮罩作为损失,然后按照老师-学生模式对SN进行蒸馏训练,损失函数为:
N1,MASKN为对前N-1个残差添加第N个遮罩;
S4、将训练后的学生模型并联,得到最终模型;
编码方法为:将原始数据输入到最终模型中的各个学生模型中,得到K个输出,对每个输出结果使用对应的遮罩进行处理,得到K个结果,对K个结果加和得到最终的编码后的向量数据,K为最终模型所包含的学生模型数量。
2.根据权利要求1所述的一种基于提升方法的向量编码方法,其特征在于,所述轻量模型由以下三种方式中的任意一种或若干种得到:
(1)从老师模型中抽取得到;(2)选用开源预训练模型;(3)从0开始训练的语言模型。
3.根据权利要求1或2所述的一种基于提升方法的向量编码方法,其特征在于,编码时,每个处理器核心运行一个学生模型,M个学生模型同时推理,M为处理器核心数量和最终模型所包含的学生模型数量这两个值中的较小值。
4.根据权利要求1所述的一种基于提升方法的向量编码方法,其特征在于,所述遮罩通过以下方式生成:
对于第1个至第K-1个遮罩,随机选择遮罩的一部分位置置1,其余位置置0;对于第K个遮罩,所有位置置为1。
5.根据权利要求1所述的一种基于提升方法的向量编码方法,其特征在于,所述遮罩通过以下方式生成:
对于第1个至第K-1个遮罩,随机选择遮罩的一部分位置置1,其余位置置0;对于第K个遮罩,先随机遮罩的一部分位置置1,其余位置置0,然后按位加和所有遮罩,将第K个遮罩中对应加和结果里所有为0的位置置1。
6.根据权利要求1所述的一种基于提升方法的向量编码方法,其特征在于,所述遮罩通过以下方式生成:
每次选择向量中连续的Q个位置置1,其余位置置0。
7.根据权利要求4或5或6所述的一种基于提升方法的向量编码方法,其特征在于,生成遮罩以后,对遮罩进行随机数替换,具体为:
选择遮罩中的一位数字,当此位数字是1时,生成一个大于0.9且小于1的随机数,用这个随机数替换此位数字;当此位数字是0时,生成一个大于0且小于0.1的随机数,用这个随机数替换此位数字;依次逐个替换遮罩中的数字,直至所有数字均被替换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宏龙科技(杭州)有限公司,未经宏龙科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210201838.1/1.html,转载请声明来源钻瓜专利网。