[发明专利]一种分类方法、计算机设备和计算机可读存储介质在审
申请号: | 202210122530.8 | 申请日: | 2022-02-09 |
公开(公告)号: | CN114491042A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 李剑锋 | 申请(专利权)人: | 武汉路特斯汽车有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N20/00 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 赵燕燕 |
地址: | 430070 湖北省武汉市武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分类 方法 计算机 设备 可读 存储 介质 | ||
本发明提供了一种分类方法、计算机设备和计算机可读存储介质。在确定待分类样本j的预测结果需要修正后,按照以下方法对待分类样本j的预测结果进行修正:获取待分类样本j的概率分布P(j)以及验证集中高置信度部分的概率分布P(1)、P(2)、...、P(n);按照以下公式对待分类样本j进行行间标准化计算:l∈{1,2,...,n}∪{j},为从训练集中获得的类别先验分布;将行间标准化后得到的待分类样本j的概率分布按照以下公式进行行内标准化计算:将行内标准化后得到的待分类样本j的概率分布作为待分类样本j的新的概率值返回以再次判断待分类样本j属于哪一类别。本发明方案提高了分类准确率。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种分类方法、计算机设备和计算机可读存储介质。
背景技术
分类算法在很多应用场景中起着至关重要的作用,目前分类算法主要有传统机器学习分类和基于神经网络的分类算法。3)然而,即使是最有效的分类器在对给定接近其决策边界的样本进行分类时也会受到影响,解决此类问题,对分类场景有重要意义。
例如,在文本处理领域中,其分类算法中包括模型训练以及文本类别预测。模型训练包括以下步骤:1)获取多个训练样本和多个训练样本的标签;2)针对各个训练文本,将训练文本和样本标签输入初始深度学习模型;3)通过训练初始深度学习模型,确定初始深度学习模型的参数权重;4)基于更新好的参数权重信息,得到训练完成的深度学习模型。文本类别预测包括以下步骤:1)获取待分类文本;2)将待分类文本输入训练好的深度学习模型中;3)通过训练好的深度学习模型得到待分类文本的类别标签和类别标签的概率。
然而,上述技术方案中,分类器在对给定接近其决策边界的样本进行分类时会受到影响。例如对于文本3的分类问题,经过深度学习模型预测输出的类别概率为[0.5,0.5,0]时,就不确定文本属于哪个类别,因为有两个概率是最大的且相同的。又如,在实际情况中,会有极其接近的概率,如0.3999999和0.3999998,这也是模型决策比较容易犯错的情况。造成此类缺陷的问题有很多,比如训练数据覆盖不完全、欠拟合和过拟合等。
发明内容
本发明的一个目的在于解决现有技术中的在对给定接近其决策边界的样本进行分类时分类准确率较低的技术问题。
本发明的一个进一步的目的在于极大提高低置信度的样本的预测结果。
特别地,本发明提供了一种分类方法,在确定待分类样本j的预测结果需要修正后,按照以下方法对所述待分类样本j的预测结果进行修正:
获取待分类样本j的概率分布P(j)以及验证集中高置信度部分的概率分布P(1)、P(2)、...、P(n);
按照以下公式对所述待分类样本j进行行间标准化计算:
l∈{1,2,...,n}∪{j},为从训练集中获得的类别先验分布;
将行间标准化后得到的待分类样本j的概率分布按照以下公式进行行内标准化计算:
将行内标准化后得到的待分类样本j的概率分布作为所述待分类样本j的新的概率值返回以再次判断所述待分类样本j属于哪一类别。
可选地,所述获取待分类样本j的概率分布P(j)以及验证集中高置信度部分的概率分布P(1)、P(2)、...、P(n)的步骤中,所述验证集的所述高置信度部分的确定方法包括如下步骤:
获取所述验证集中的各个验证集样本的概率值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉路特斯汽车有限公司,未经武汉路特斯汽车有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210122530.8/2.html,转载请声明来源钻瓜专利网。