[发明专利]一种结合蒸馏的意图识别与槽位填充联合方法在审

申请号：	202211038666.7	申请日：	2022-08-29
公开（公告）号：	CN115563983A	公开（公告）日：	2023-01-03
发明（设计）人：	刘波;孙芃;徐小龙	申请（专利权）人：	天翼电子商务有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100037 北京市西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合蒸馏意图识别填充联合方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种结合蒸馏的意图识别与槽位填充联合方法，首先通过语料库中的数据对BERT模型进行预训练，得到老师模型；其次定义学生模型，学生模型的网络结构与老师模型基本一致，但将transformer的层数减少为老师模型的层数的一半，在老师模型中每2层选择其中一层的参数用来初始化学生模型，并对老师模型进行知识蒸馏，得到学生模型。本发明通过意图识别与槽位填充联合训练推理，两个任务共享一个模型框架，减小了模型存储占用，增加了响应效率，并且通过关联任务的特征信息共享和互补，提高了意图识别和槽位填充的准确率；在意图识别与槽位填充联合训练推理的基础上结合了模型蒸馏，在保证准确率的前提下，进一步提高了模型的响应速度。

技术领域

本发明涉及意图识别与槽位填充领域，特别涉及一种结合蒸馏的意图识别与槽位填充联合方法。

背景技术

随着社会经济的发展，客服业务已经成为各个行业不可或缺的一部分，但随着业务规模的扩展，导致客服业务的压力较大，投入的人力较多，因此智能客服成为了解决这一困境的重要方案。目前智能客服系统，已经应用到通信、保险、证券、银行等各个领域。

意图识别以及槽位填充任务是智能客服的核心任务，智能客服需要通过识别用户的意图，并填充相应的槽位，来理解并协助用户办理相关业务。但目前常用的意图识别和槽位填充方法将意图识别和槽位填充任务完全分拆独立建模，这样忽略了两者之间的联系。另外智能客服业务对实时性要求较高，因此要求模型有较快的推理和响应速度，但目前常用的BERT等模型均较大，推理速度较慢。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种结合蒸馏的意图识别与槽位填充联合方法，通过意图识别与槽位填充联合训练推理，使关联任务的特征信息实现共享和互补，提高了意图识别和槽位填充的准确率，并结合模型蒸馏，在保证准确率的前提下，进一步提高了模型的响应速度。

本发明提供了如下的技术方案：

本发明提供一种结合蒸馏的意图识别与槽位填充联合方法，包括以下步骤：

S1、在蒸馏阶段采用DistilBERT的蒸馏思路，首先通过语料库中的数据对BERT模型进行预训练，得到老师模型；

S2、然后定义学生模型，学生模型的网络结构与老师模型基本一致，但将transformer的层数减少为老师模型的层数的一半；

S3、在老师模型中每2层选择其中一层的参数用来初始化学生模型，并对老师模型进行知识蒸馏，得到学生模型；

S4、在该学生模型的基础上，进行意图识别和槽位填充任务的联合训练，联合训练阶段，采用JointBERT的训练思路，并在原训练方法上，进行改进，增加了BiLSTM层，首先将数据输入至学生模型的Embedding层，将Embedding层的输出，输入至transformer结构，得到CLS的隐藏层向量表示C以及输入文本各个token的隐藏层向量表示T₁至T_N,将CLS的隐藏向量C输入至一个分类器Classifier,得到意图识别结果；将隐藏层向量表示T₁至T_N输入至BiLSTM层，并将BiLSTM层的输出，输入至CRF层，得到槽位填充任务的结果；

S5、在上述的训练与推理中，需要计算意图识别任务与槽位填充任务的损失函数，其中意图识别的损失函数表示为loss_intent,在本发明中意图识别任务使用Cross-EntropyLoss，Cross-EntropyLoss的公式如下：

其中p表示真实数据的分布，q表示预测结果的分布；

槽位填充任务的损失函数表示为loss_slot，在本发明中槽位填充任务使用CRFLoss,其公式为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天翼电子商务有限公司，未经天翼电子商务有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211038666.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种结合相邻位置及双历史序列的CTR位置消偏方法
下一篇：视频会议的处理方法、系统、电子设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种结合蒸馏的意图识别与槽位填充联合方法在审

专利文献下载