[发明专利]一种基于提升方法的向量编码方法在审
申请号: | 202210201838.1 | 申请日: | 2022-03-03 |
公开(公告)号: | CN114723039A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 赵天成;张璐 | 申请(专利权)人: | 宏龙科技(杭州)有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06N5/04 |
代理公司: | 杭州知见专利代理有限公司 33295 | 代理人: | 卢金元 |
地址: | 310000 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 提升 方法 向量 编码 | ||
本发明公开了一种基于提升方法的向量编码方法,包括模型训练方法和编码方法,模型训练方法包括以下步骤:S1、将已经训练完成的原始模型作为老师模型T,将若干个轻量模型作为学生模型;S2、按照老师‑学生模式对S1进行蒸馏训练;并生成第一个遮罩;S3、训练第N个学生模型SN时,生成第N个遮罩,将训练数据输入老师模型所得到的结果和同样的训练数据分别输入前N‑1次训练得到的N‑1个学生模型后所得的结果的加和作差,再将所得残差加上第N个遮罩作为损失,然后按照老师‑学生模式对SN进行蒸馏训练;S4、将训练后的学生模型并联,得到最终模型。本方案最终模型可以并行处理,即有较高的处理速度也有可靠精度。
技术领域
本发明涉及深度向量化模型的加速,尤其是涉及一种基于提升方法的向量编码方法。
背景技术
在机器学习领域,对于数据的向量化一直是非常重要的研究方向。无论是自然语言向量化,还是图片向量化,在各类分类、识别任务中都占有举足轻重的地位。除了要使向量具有更强的表征能力以外,如何使向量化的过程更快,占用资源更小也是一个重要的课题。现有的向量化方法在精度和速度之间较难做到兼顾,实际应用中经常出现效率过低或精度过低的情况。
发明内容
本发明主要是解决现有技术所存在的难以兼顾精度和速度的技术问题,提供一种可以并行处理,即有较高的处理速度也有可靠精度的基于提升方法的向量编码方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于提升方法的向量编码方法,包括模型训练方法和编码方法,模型训练方法包括以下步骤:
S1、将已经训练完成的原始模型作为老师模型T,将若干个轻量模型作为学生模型;
S2、训练第一个学生模型S1时,按照老师-学生模式对S1进行蒸馏训练,损失函数为:
训练目标是使损失达到最小值,继续训练不再变小;B为训练数据的一个子集,Li是第B中的第i条数据,例如在自然语言场景下,B就是一组自然语言的句子,每一句就是一条数据;Li是B中的第i条数据,也就是一个句子,S1(Li)是指Li输入到学生模型S1后的输出,T(Li)是指Li输入到老师模型T后的输出;并生成第一个遮罩;
S3、训练第N个学生模型SN时,生成第N个遮罩,将训练数据输入老师模型所得到的结果和同样的训练数据分别输入前N-1次训练得到的N-1个学生模型后所得的结果的加和作差,再将所得残差加上第N个遮罩作为损失,然后按照老师-学生模式对SN进行蒸馏训练,损失函数为:
N1,MASKN为对前N-1个残差添加第N个遮罩;训练目标同样是使损失达到最小值,继续训练不再变小;
S4、将训练后的学生模型并联,得到最终模型;
编码方法为:将原始数据输入到最终模型中的各个学生模型中,得到K个输出,对每个输出结果使用对应的遮罩MASK进行处理,即第p个学生模型的输出结果使用训练中生成的第p个遮罩,1≤p≤K,得到K个结果,对K个结果加和得到最终的编码后的向量数据,K为最终模型所包含的学生模型数量。
最终模型所包含的学生模型数量是根据需求来定的,学生模型越多,向量化效果越好但计算量相对也会更大,消耗更多的硬件资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宏龙科技(杭州)有限公司,未经宏龙科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210201838.1/2.html,转载请声明来源钻瓜专利网。