[发明专利]基于置信学习与标签平滑的噪声数据处理方法与系统有效
| 申请号: | 202111075371.2 | 申请日: | 2021-09-14 |
| 公开(公告)号: | CN113515639B | 公开(公告)日: | 2021-12-17 |
| 发明(设计)人: | 刘伟;刘家伟;龚杰;李鑫涛;傅骏成;余晓霞 | 申请(专利权)人: | 华东交通大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/08;G06N3/04 |
| 代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 黄攀 |
| 地址: | 330000 江西省南*** | 国省代码: | 江西;36 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 置信 学习 标签 平滑 噪声 数据处理 方法 系统 | ||
1.一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,所述方法包括:
步骤一:对带有噪声标签的原始训练数据集合,经标签平滑正则化处理后得到的文本样本输入至文本分类的教师模型,将经过迭代计算收敛后的模型作为训练好的教师模型;
步骤二:利用训练好的教师模型,通过置信学习的方式对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选,并将原始训练数据集合划分为第一训练集合以及噪声训练集合;
步骤三:将所述第一训练集合以及所述噪声训练集合输入至学生模型,通过标签平滑正则化方法对学生模型进行训练,以最终得到训练好的学生模型;
在所述步骤一中,所述原始训练数据集合表示为:
其中,表示原始训练数据集合中的样本数量,表示原始训练数据集中第个文本,是文本的类别标签,,,
原始训练数据集合中属于类别的文本的类别标签经过标签平滑正则化后可得:
其中,是平滑后的类别标签的第个元素,为超参数;
在所述步骤一中,进行迭代计算的方法包括如下步骤:
通过基于交叉熵的多类别分类损失进行迭代计算,将收敛后的模型作为训练好的教师模型;
其中,在教师模型中,基于交叉熵的多类别分类损失表示为:
其中,为教师模型中基于交叉熵的多类别分类损失,表示教师模型的参数关于文本属于类别的预测概率,表示任意一个文本对应的类别标签。
2.根据权利要求1所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,在所述步骤二中,对所述带有噪声标签的原始训练数据集合进行噪声数据的筛选的步骤中,需要对属于类别的文本对应的类别标签的标注正确与否进行判定,具体包括如下步骤:
若属于类别的文本在原始训练数据集合中的类别标签为,且对所述训练好的教师模型关于类别的预测概率大于预设概率阈值,则判定文本在原始训练数据集合中的类别标签为错误标签,即文本为噪声样本;
其中,属于类别的文本对所述训练好的教师模型关于类别的预测概率表示为;
所述预设概率阈值表示为:
其中,为所述预设概率阈值,表示第类文本对应的数据集中文本的数量。
3.根据权利要求2所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,在所述步骤二中,在所述噪声训练集合中,第类噪声样本的初始数量表示为:
其中,表示混淆矩阵中类别标签标记为第类,真实类别标签为的样本数量,表示真实类别标签,表示教师模型的参数关于文本属于类别的预测概率,表示教师模型的参数关于文本属于类别的预测概率。
4.根据权利要求3所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,在所述步骤二中,第类噪声样本对应的最终噪声样本数量表示为:
其中,为各类别的训练样本数量相关的权重,为超参数,为第类噪声样本的初始数量,为第类噪声样本的初始数量,为第类噪声样本的初始数量。
5.根据权利要求4所述的一种基于置信学习与标签平滑的噪声数据处理方法,其特征在于,所述第一训练集合表示为,所述噪声训练集合表示为,对学生模型进行训练的方法包括如下步骤:
通过对学生模型在原始训练数据集合上的多分类交叉熵损失函数进行迭代,直至收敛得到训练好的学生模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111075371.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海上风电场定制化设计方法
- 下一篇:一种硬质合金齿及固齿方法





