[发明专利]知识蒸馏方法、电子设备和存储介质在审
申请号: | 202210476439.6 | 申请日: | 2022-04-29 |
公开(公告)号: | CN114822518A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 钱彦旻;龚勋 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G06K9/62;G10L15/16 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 邓婷婷;黄谦 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 蒸馏 方法 电子设备 存储 介质 | ||
本发明公开知识蒸馏方法、电子设备和存储介质,其中,一种知识蒸馏方法,包括:在两个蒸馏级别将AR教师模型的知识转移到NAR学生模型,其中,两个蒸馏级别包括帧级蒸馏和序列级蒸馏,编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成,解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为Mask‑CTC的自回归模型,其中,所述Mask‑CTC为通过条件掩码语言模型对CTC结果的改进。结果表明,这种知识转移方法缩小了AR和NAR之间的差距,在更困难的评估集(即AISHELL‑1中的测试集,Librispeech中的test‑other)中,改进明显更大。经过知识转移和蒸馏,由于AR教师的高预测精度,与原始NAR模型相比,长度误差问题得到了很大缓解。
技术领域
本发明属于知识蒸馏技术领域,尤其涉及知识蒸馏方法、电子设备和存储介质。
背景技术
近年来,自动语音识别(Automatic Speech Recognition,ASR)的性能通过序列到序列建模得到了很大的提升,例如连接时序分类(Connectionist TemporalClassification,CTC)、循环神经网络换能器(Recurrent Neural Network Transducer,RNNT)和基于注意力的编码器-解码器(Attention-based Encoder-Decoder,AED)。许多早期的研究都集中在自回归(autoregressive,AR)建模上,它使用从左到右的概率链规则生成令牌序列。尽管它们具有出色的性能,但此类AR模型需要L步增量模型计算来生成L个令牌,从而导致高推理延迟和可观的计算成本。
从另一方面来看,非自回归(non-autoregressive,NAR)建模以恒定步骤生成令牌序列,并消除了链式规则假设。CTC在最近的NAR研究中发挥着重要作用。现代NAR方法通过利用对齐(基于对齐)和输出标记序列(基于标记)来优于CTC。基于联合CTC/注意架构,Mask-CTC利用(条件)掩码语言模型((Conditional)Masked Language Model,(C)MLM)解码器来细化CTC令牌序列。提出了两个辅助任务来解决Mask-CTC中出现的长度预测问题。从另一个角度来看,CTC对齐在Align-Refine、CASS-NAT和ALNAT中显示了其在构建NAR模型方面的优势。此外,自监督预训练模型wav2vec2.0在CTC建模方面取得了可喜的成果。
然而,NAR建模仍然存在两个主要挑战:首先,与最先进的(State-Of-The-Art,SOTA)AR模型相比,NAR模型收敛缓慢且性能较差。其次,虽然NAR模型通常在资源受限的情况下因推理速度快和准确度高而受到青睐,但模型规模大和计算成本高限制了NAR建模的应用。知识蒸馏(迁移学习)通常用于通过教授较小的学生模型来解决此类问题。具体来说,学生的目标是使用Kullback-Leibler散度(Kullback-Leibler Divergence,KLD)来模仿训练有素的教师模型提供的软目标。然而,发明人在实现本申请的过程中发现,当在非自回归ASR上应用知识蒸馏时,可怜的NAR教师模型限制了改进。
发明内容
本发明实施例提供一种知识蒸馏方法、电子设备和存储介质,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种知识蒸馏方法,包括:在两个蒸馏级别将AR教师模型的知识转移到NAR学生模型,其中,两个蒸馏级别包括帧级蒸馏和序列级蒸馏,编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成,解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为Mask-CTC的自回归模型,其中,所述Mask-CTC为通过条件掩码语言模型对CTC结果的改进。
第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的知识蒸馏方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210476439.6/2.html,转载请声明来源钻瓜专利网。