[发明专利]一种处理样本倾斜的文本分类方法有效
申请号: | 202011467463.0 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112241454B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 刘世林;罗镇权;张学锋;康青杨;杨李伟;吴桐;曾途 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 张玲 |
地址: | 610015 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 样本 倾斜 文本 分类 方法 | ||
本发明涉及一种处理样本倾斜的文本分类方法,包括以下步骤:将N个样本类别的数据集重组为M个样本类别的数据集,其中M=N‑n+1,n为少样本的类别数量;使用第一模型对M个样本类别的数据集进行训练,得到以CLS向量表示的V_cls类别向量;使用第二模型对N个样本类别的数据集进行分类,在分类输入前将所述V_cls类别向量作为第一个输入的特征字符;根据所述第一模型、第二模型,得到N个样本类别的数据集的分类;使用所述第一模型、第二模型对新的文本进行分类。本方案采用全部的数据集进行计算训练,从硬标签的形式转成模型来判断软标签的形式,不会因为模型判断而丢失部分数据,可以很好的解决数据不均衡的问题,对不均衡的数据集取得较好的分类效果。
技术领域
本发明涉及大数据处理技术领域,特别涉及一种处理样本倾斜的文本分类方法。
背景技术
文本分类,或称为自动文本分类,是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别中的过程。
样本倾斜,是指参与分类的两个类别或多个类别的样本数据差异很大,也就是不平衡数据集。一般的分类研究主要针对平衡数据集,但在实际应用中样本大多都是不平衡的数据集。所以,对不平衡数据集的分类研究更具实用价值。
通常的文本分类研究是以提高数据集整体的分类准确率为目标,但对于不平衡数据集,以分类准确率为目标的话,则会使分类效果偏向于样本数量多的类别额,导致分类模型的效果明显下降。
为了解决这个问题,通常人们尝试将多个小样本数据合并在一起作为一个“其他类”或“小样本类”,先用一个文本分类模型训练改造后的数据集,识别出这个“其他类”,再用另一个模型专门训练这些“小样本类”。比如有20个类别,其中有8个小类别,则将这8个小类别当成一个“其他类”,当文本被分到这8个类别的“其他类”时,再通过这8个类别训练好的模型去具体区别是这8个类别中的哪一个类别,其公式描述如下:
P(y|x)=P(y|c,x)P(c|x)+P(c|x)
但是通过这种方式分类的话,当第一个模型认为该文本不是“小样本类”的数据时则会被丢弃,不会进入到下一个模型中,即认为第一模型的准确率是100%。实际上这是不合理的,不符合实际数据分布,如果该文本确实是“小样本类”的数据,则会因为第一个模型的判断,而失去进入第二个模型进行进一步判断的机会。
发明内容
本发明的目的在于能够对不均衡的数据集进行准确的分类,提供一种处理样本倾斜的文本分类方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种处理样本倾斜的文本分类方法,其特征在于:包括以下步骤:
将N个样本类别的数据集重组为M个样本类别的数据集,其中M=N-n+1,n为少样本的类别数量;
使用第一模型对M个样本类别的数据集进行训练,得到以CLS向量表示的V_cls类别向量;
使用第二模型对N个样本类别的数据集进行分类,在分类输入前将所述V_cls类别向量作为第一个输入的特征字符;
根据所述第一模型、第二模型,得到N个样本类别的数据集的分类;使用所述第一模型、第二模型对新的文本进行分类。
在本方案中,将多个小样本数据合并在一起作为一个“其他样本”或“小样本”,但数据集不变,只是该数据集由N个样本类别重组为M个样本类别了;通过第一模型训练得到M个样本类别的类别向量,然后再M个样本类别的类别向量输入所述第二模型作为对N个样本类别数据集进行分类的判断信息,避免数据集经过模型后,会直接丢弃不属于类别的数据集,造成数据分类不准确的问题;最终得到这N个样本类别的数据集的分类;在以后对新的文本,比如新的数据集进行分类时,将这些数据集根据本方案的方法输入第一模型、第二模型后,即可得到这些数据集的分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011467463.0/2.html,转载请声明来源钻瓜专利网。