[发明专利]模型训练方法、装置、计算机设备及计算机可读存储介质有效
| 申请号: | 202210011963.6 | 申请日: | 2022-01-07 |
| 公开(公告)号: | CN114036306B | 公开(公告)日: | 2022-03-29 |
| 发明(设计)人: | 周刚;刘高硕;琚生根 | 申请(专利权)人: | 四川大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 王新哲 |
| 地址: | 610065 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 方法 装置 计算机 设备 可读 存储 介质 | ||
1.一种模型训练方法,其特征在于,应用于融入标签感知迁移学习的跨领域槽填充模型,所述跨领域槽填充模型用于将包括真实BIO标签的训练样本输入嵌入层得到所述训练样本对应的词嵌入,将所述词嵌入输入第一双向长短期记忆神经网络,得到所述词嵌入对应的第一隐藏状态,将所述第一隐藏状态输入条件随机层,生成预测BIO标签序列,将所述词嵌入输入第二双向长短期记忆神经网络,得到所述词嵌入对应的第二隐藏状态,将所述第二隐藏状态输入平均池化层,生成表示信息,将所述表示信息与槽描述向量进行相似度对比,确定相似度最高的槽描述向量对应的槽位为目标槽位,所述真实BIO标签用于表示所述训练样本的每个元素的类型与位置,所述槽描述向量是描述槽位的向量,由n个所述槽位的自然语言单词的词嵌入相加得到,所述方法包括:
将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签且均由字符构成;
基于第一预设公式,计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;
将各个所述真实BIO标签对应的所述最大平均差异值相加,得到最大平均差异总值;
基于第二预设公式,计算分类损失函数值;
以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练;
所述以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,包括:
以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型;
所述第二预设公式为:
其中,表示所述分类损失函数值;表示所述训练样本的总数;表示所述训练样本的真实BIO标签的数量;表示所述训练样本的真实BIO标签类别;表示符号函数,如果训练样本i的预测BIO标签与所述训练样本的真实BIO标签类别c一致,取1,否则取0;表示训练样本i属于真实BIO标签c的预测概率。
2.根据权利要求1所述的模型训练方法,其特征在于,所述第一预设公式为:
其中,表示所述最大平均差异值,表示再生核函数;
表示第i个所述第一域样本的隐藏信息,表示第j个所述第一域样本的隐藏信息;
表示第i个所述第二域样本的隐藏信息,表示第j个所述第二域样本的隐藏信息;
表示所述第一域样本的隐藏信息的集合,表示所述第二域样本的隐藏信息的集合;
表示所述第一域样本的数量,表示所述第二域样本的数量。
3.根据权利要求1所述的模型训练方法,其特征在于,所述计算分类损失函数值后,还包括:
基于第三预设公式,计算正则化损失函数值;
所述以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型,包括:
以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函数值为目标,训练所述跨领域槽填充模型。
4.根据权利要求3所述的模型训练方法,其特征在于,所述第三预设公式为:
其中,表示所述正则化损失值;表示Bi-LSTM的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210011963.6/1.html,转载请声明来源钻瓜专利网。





