[发明专利]一种基于少样本的文本分类方法有效

申请号：	202110370999.9	申请日：	2021-04-07
公开（公告）号：	CN112765359B	公开（公告）日：	2021-06-18
发明（设计）人：	刘世林;罗镇权;黄艳;曾途	申请（专利权）人：	成都数联铭品科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/126;G06F40/58
代理公司：	北京市领专知识产权代理有限公司 11590	代理人：	张玲
地址：	610015 四川省成都市自由贸易试***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于样本文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于少样本的文本分类方法，包括以下步骤：使用z个翻译工具将数据集a中的每条数据分别翻译z次，以得到扩充后的数据集b；使用BERT预训练模型对扩充后的数据集b进行编码，得到向量集V；将向量集V作为训练集x，将数据集a的标签作为训练集y，将所述训练集x和训练集y共同输入分类模型，对分类模型进行训练，直到得到收敛的分类模型。本发明将原始少样本的数据进行大量扩充，以增加训练的样本，但并没有增加人工标注，因此一方面解决了少样本训练分类不准确的问题，另一方面也避免了需要人工标注所耗费的人力和时间。

技术领域

本发明涉及文本分类技术领域，特别涉及一种基于少样本的文本分类方法。

背景技术

文本分类，或者称为自动文本分类，是指计算机将再有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。文本包括新闻、文章、文字作品、小说、通知等，比如对一条新闻的文本进行分类时，可以判断将其分为体育新闻、娱乐新闻、时事政治新闻或天气预报等类别；再比如对一部小说的文本进行分类时，可以将其分为言情小说、武侠小说或悬疑小说等。可见，文本分类也属于对自然语言的处理过程，是对语义信息进行处理的技术应用领域。

主流的针对样本分类的传统深度学习技术需要大量的数据来训练一个好的模型，即需要大量的样本来训练模型，从而使用该模型对文本进行测试，以得到对该文本的分类结果。但是由于需要标记大量的数据，费时费力，因此少样本分类的学习是一个不错的选择。

少样本分类的学习是指使用较少的数据样本（即文本）达到准确分类的结果。少样本分类的学习关键是解决过拟合（overfitting）的问题，由于训练的数据样本太少，训练出的模型可能在训练集上的作用效果还行，但是在测试集上则会面临灾难性的打击，使得文本分类不准确。

为了解决现有技术中少样本分类学习的缺陷，人们的想法直接简单，既然训练集的数据样本不够，那就增加训练集的数据样本。但是增加训练集的数据样本后，又回到了传统深度学习的方式，需要对大量的训练集数据样本进行标记，仍然存在费时费力的问题。

所以，现在急需一种既可以增加训练集的数据样本，又节省人力、节省时间的方法。

发明内容

本发明的目的在于解决两个问题，一是少样本训练分类不准确，二是增加训练集但需要大量人工标注，提供一种基于少样本的文本分类方法。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种基于少样本的文本分类方法，包括以下步骤：

步骤S1：使用z个翻译工具将数据集a中的每条数据分别翻译z次，以得到扩充后的数据集b；

步骤S2：使用预训练模型对扩充后的数据集b进行编码，得到向量集V；

步骤S3：将向量集V作为训练集x，将数据集a的标签作为训练集y，将所述训练集x和训练集y共同输入分类模型，对分类模型进行训练，直到得到收敛的分类模型。

在步骤S1中，所述数据集a中包括m类数据，平均每类数据中包括n条数据；