[发明专利]基于相似度保持的知识蒸馏的立场检测方法有效
申请号: | 202110970107.9 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113673254B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 李洋;孙宇晴 | 申请(专利权)人: | 东北林业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06N3/04;G06N5/02 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 张换男 |
地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 相似 保持 知识 蒸馏 立场 检测 方法 | ||
1.基于相似度保持的知识蒸馏的立场检测方法,包括以下步骤:
获取待检测立场文本,利用Text-CNN网络模型进行立场检测;所述Text-CNN网络模型的确定过程包括以下步骤:
基于知识蒸馏的方式确定Text-CNN网络,知识蒸馏中的“Teacher”模型为BERT模型,“Student”模型为Text-CNN网络模型;
同时将实例数据集中实例对应的目标和文本输入到“Teacher”模型,使用BERT模型来获得soft label,并将其传递给Text-CNN;
其特征在于,所述知识蒸馏的方式中使用的损失函数如下:
LKD=γLClassic_KD+(1-γ)LSP_KD(GT,GS)
其中,LClassic_KD为现有的知识蒸馏的方式中的蒸馏损失,LSP_KD(GT,GS)为相似度保持损失函数,γ为超参数;
经典蒸馏损失如下:
LClassic_KD=α·H(y,σ(zS))+(1-α)·T2H((σ(zT/T),σ(zS/T))
其中,y为标签,H(.)为交叉熵损失函数,σ(.)为softmax函数,T为温度参数,y为表示地面真值类的单热向量,zS和zT分别为学生网络和教师网络的输出logits;α是加权超参数;
所述相似度保持损失函数的确定过程如下:
在知识蒸馏的过程中,给定一个输入的mini-batch,定义为“Teacher”模型在l层上产生的激活映射,为“Student”模型在l'层上产生的激活映射,其中b为batch大小,h为空间维数;
给定b个文本的输入的mini-batch,“Teacher”模型和“Student”模型模型各取mini-batch,一个计算b*h的激活映射,一个计算b*h’的激活映射,进行reshape后得到和
从两个模型中输出的激活映射中计算相似度矩阵:
对于“Teacher”模型:
其中,为b×b矩阵;为的L2范数,为应用L2规范化的结果;
对于“Student”模型:
相似度保持损失函数为:
其中||·||F表示Frobenius范数。
2.根据权利要求1所述的基于相似度保持的知识蒸馏的立场检测方法,其特征在于,在进行知识蒸馏前,还包括构建实例数据集的过程。
3.根据权利要求2所述的基于相似度保持的知识蒸馏的立场检测方法,其特征在于,S1所述实例数据集表示有N个实例的数据集,每个实例xi包含一个文本si,目标ti和一个立场标签yi;每条文本由单词序列组成,si={wi0,wi1,...,win},每个目标也由单词序列组成,ti={ti0,ti1,...,tim},n和m分别是si、ti中单词的数量。
4.根据权利要求1、2或3所述的基于相似度保持的知识蒸馏的立场检测方法,其特征在于,如果“Student”模型和“Teacher”模型具有相同的深度,“Student”模型的l'层与“Teacher”模型l层为相同depth的层;如果“Student”模型和“Teacher”模型具有不同的深度,“Student”模型的l'层是与“Teacher”模型位于相同区块末端的层,即两个模型池化层前的最后一层隐藏层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北林业大学,未经东北林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110970107.9/1.html,转载请声明来源钻瓜专利网。