[发明专利]一种样本数据处理方法、样本数据处理装置及电子设备在审
申请号: | 201911370094.0 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111198938A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 黄日星;熊友军 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/279;G06F40/30 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 李娟 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 数据处理 方法 装置 电子设备 | ||
1.一种样本数据处理方法,其特征在于,包括:
获取用于训练预设的意图识别模型的所有样本数据;
根据每一样本数据的意图标签及语言模型标签,确定每一样本数据所属的意图类别及语言模型类别,其中,所述语言模型类别包括正样本及负样本;
统计各个意图类别下的样本数据的数量,以及统计各个语言模型类别下的样本数据的数量,以及统计所有样本数据的总数量;
根据每一意图类别下的样本数据的数量及所述总数量,计算每一意图类别的意图权重;
根据每一语言模型类别下的样本数据的数量及所述总数量,计算每一语言模型类别的语言模型权重;
基于各个意图类别的意图权重及各个语言模型类别的语言模型权重,确定所述意图识别模型的损失函数;
基于所述损失函数对所述意图识别模型进行训练。
2.如权利要求1所述的样本数据处理方法,其特征在于,所述根据每一意图类别下的样本数据的数量及所述总数量,计算每一意图类别的意图权重,包括:
计算所述总数量与目标意图类别下的样本数据的数量的比值,作为所述目标意图类别的数量比值,其中,所述目标意图类别为任一意图类别;
将所述目标意图类别的数量比值的平方根确定为所述目标意图类别的意图权重。
3.如权利要求1所述的样本数据处理方法,其特征在于,所述根据每一语言模型类别下的样本数据的数量及所述总数量,计算每一语言模型类别的语言模型权重,包括:
计算所述总数量与所述正样本下的样本数据的数量的比值,作为所述正样本的数量比值;
计算所述总数量与所述负样本下的样本数据的数量的比值,作为所述负样本的数量比值;
将所述正样本的数量比值的平方根确定为所述正样本的语言模型权重,将所述负样本的数量比值的平方根确定为所述负样本的语言模型权重。
4.如权利要求1所述的样本数据处理方法,其特征在于,所述基于各个意图类别的意图权重及各个语言模型类别的语言模型权重,确定所述意图识别模型的损失函数,包括:
分别获取各个意图类别的损失以及各个语言模型类别的损失;
基于各个意图类别所对应的意图权重,对各个意图类别的损失进行加权求和计算,得到所述意图识别模型的意图损失;
基于各个语言模型类别所对应的语言模型权重,对各个语言模型类别的损失进行加权求和计算,得到所述意图识别模型的语言模型损失;
基于所述意图损失及所述语言模型损失构建所述意图识别模型的损失函数。
5.如权利要求4所述的样本数据处理方法,其特征在于,所述基于所述损失函数对所述意图识别模型进行训练,包括:
获取所述意图识别模型的当前训练轮次;
当所述当前训练轮次已达到预设的训练轮次阈值时,检测所述意图损失是否小于预设的意图损失阈值,且所述语言模型损失是否小于预设的语言模型损失阈值;或者,检测所述意图损失及所述语言模型损失是否均已达到收敛;
若所述意图损失小于预设的意图损失阈值,且所述语言模型损失小于预设的语言模型损失阈值;或者,所述意图损失及所述语言模型损失均已达到收敛,则停止对所述意图识别模型的训练。
6.如权利要求1至5任一项所述的样本数据处理方法,其特征在于,所述样本数据处理方法还包括:
在每一轮次的训练开始前,对所述负样本进行采样;
相应地,所述基于所述损失函数对所述意图识别模型进行训练,包括:
将所有正样本以及当前轮次的训练开始前采样所得的负样本作为所述意图识别模型当前轮次的训练的输入数据,并基于所述损失函数对所述意图识别模型进行训练。
7.如权利要求6所述的样本数据处理方法,其特征在于,所述对所述负样本进行采样,包括:
计算所述负样本的数量与所述正样本的数量的样本比值;
计算所述样本比值的平方根与所述正样本的数量的乘积,得到取样数量;
基于所述取样数量,在所述负样本中进行随机采样。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911370094.0/1.html,转载请声明来源钻瓜专利网。