[发明专利]文本处理模型训练方法、语音文本处理方法及装置有效
申请号: | 202110704938.1 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113420121B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 周军;张震;李成章;李鹏;刘建;石瑾;刘睿霖;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/951;G06F18/214 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 模型 训练 方法 语音 装置 | ||
1.一种文本处理模型训练方法,其特征在于,所述方法包括:
从互联网爬取对话文本,得到正样本;所述对话文本中的语句为语法正确的语句,所述正样本为所述对话文本中的语句;
对所述对话文本中的语句进行变换操作,得到负样本和所述负样本的第一标签信息,所述负样本中的语句为语法错误的语句,所述第一标签信息表示将所述正样本变换为所述负样本的变换序列,所述变换序列表示一个语句中每个字符对应的变换操作;
将所述正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成所述第一文本处理模型的目标层的第一特征向量和所述第二文本处理模型的目标层的第二特征向量;所述第二文本处理模型的维度小于所述第一文本处理模型,所述第一文本处理模型是根据所述正样本、所述负样本和所述负样本的变换序列训练得到的;
根据所述第一特征向量、所述第二特征向量,对所述第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型;
在所述第一文本处理模型的层数与所述第二文本处理模型的层数相同的情况下,所述第一特征向量包括第一输入层特征向量、第一隐藏层特征向量、第一注意力向量和对所述负样本进行校对的第一预测校对向量,所述第二特征向量包括第二输入层特征向量、第二隐藏层特征向量、第二注意力向量和对所述负样本进行校对的第二预测校对向量;
所述根据所述第一特征向量和所述第二特征向量,对所述第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型,包括:
根据所述第一文本处理模型的维度和所述第二文本处理模型的维度,确定投影矩阵;
根据所述投影矩阵、所述第一输入层特征向量和所述第二输入层特征向量,计算所述第一文本处理模型的输入层和所述第二文本处理模型的输入层之间的第一均方差损失;
根据所述投影矩阵、所述第一隐藏层特征向量和所述第二隐藏层特征向量,计算所述第一文本处理模型的隐藏层和所述第二文本处理模型的隐藏层之间的第二均方差损失;
计算所述第一注意力向量和所述第二注意力向量之间的第三均方差损失;
根据预设的温度参数计算所述第一预测校对向量和所述第二预测校对向量的交叉熵损失;
根据所述第一均方差损失、所述第二均方差损失、所述第三均方差损失和所述交叉熵损失更新所述第二文本处理模型。
2.根据权利要求1所述的方法,其特征在于,在所述第一文本处理模型的层数为M,所述第二文本处理模型的层数为N,且M不等于N的情况下,所述第一特征向量包括所述第一文本处理模型的M层中每一层的第一注意力向量、每一层隐藏层的第一隐藏层特征向量、第一输入层特征向量和对所述负样本进行校对的第一预测校对向量,所述第二特征向量包括所述第二文本处理模型的N层中每一层的第二注意力向量、每一层隐藏层的第二隐藏层特征向量、第二输入层特征向量和对所述负样本进行校对的第二预测校对向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110704938.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种X射线管及X射线成像系统
- 下一篇:一种零反式脂肪酸大豆油及其生产工艺