[发明专利]一种面向不平衡文本分类数据的数据增强方法及系统在审
申请号: | 202110441775.2 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113076424A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 线岩团;陈文仲;相艳;张亚飞;王红斌 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/289;G06N3/04 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 不平衡 文本 分类 数据 增强 方法 系统 | ||
本发明提供面向不平衡文本分类数据的数据增强方法及系统,包括数据清洗;文本预处理;先验信息统计;向量化;融入上下文信息;结构化自注意力机制;隐空间数据增强;训练模型;本发明采用融合类别先验信息的Mixup数据增强技术,能在隐状态空间合成样本,有效扩增用于文本分类的不平衡数据集中少样本类别的数据量,明显改善模型的泛化性能,显著提高模型在该类数据集上的正确率、精确率、召回率和F1值等评价指标;加入改进后的Mixup数据增强技术的模型进行训练,模型分类器能增强对数据集中少样本类别的分类准确率;适用于缓解用于文本分类的数据集中存在的数据不平衡问题,也适用于提高该类数据集中少样本类别的分类准确率的情形。
技术领域
本发明涉及一种面向不平衡文本分类数据的数据增强方法及系统,属于自然语言处理技术领域。
背景技术
随着互联网的快速发展以及各类智能终端的普及,网络上每天都会产生大量的文本数据,已经出现了“信息爆炸”的现象。此外,政府机构、各种社会组织团体的信息化建设日趋完善,一定层度上也丰富了网络世界的信息种类。网络中存在着来自社交媒体网站、电商平台、政府门户网站等的新闻、舆情、购物评论、法律文书等等形式多样的文本。在大数据时代如何利用网络世界纷繁复杂的信息,“沙里淘金”挖掘出潜在价值的信息,对于更好的服务于社会生产生活至关重要。
文本分类是自然语言处理领域的一个重要研究课题,相关研究最早可以追溯到利用专家规则进行分类。它的应用非常广泛,例如:垃圾邮件分类、新闻分类、词性标注、评论情感分类、自动问答等。如上所述,目前网络世界信息多样,研究人员在采用人工智能技术并利用从网络世界获取到的数据构建的数据集进行模型训练时,往往面临着很多问题。例如,目前很多领域构建的和文本有关的数据集就存在着严重的数据不平衡现象。在自然界中,长尾分布是比正态分布更为广泛存在的一种随机变量的分布。将数据集中的样本按照类别数量降序排列,可以从绘制出的样本类别分布图中直观的看到这种“长尾分布”现象。这种具有长尾分布的数据集存在着严重的数据不平衡问题。在传统的分类和识别任务中,训练数据的分布往往都会进行人工均衡,即不同类别的样本数量无显著差异。但“长尾分布”的趋势在从自然科学到社会科学的各个领域都是存在的,直接用长尾数据训练模型,往往会造成分类器对头部数据过拟合,在预测时往往忽略尾部类别的问题。
目前有很多研究人员关注到了数据集存在的数据不平衡问题。例如,在图像处理领域,Zhang等人提出了Mixup数据增强的方法从训练集中随机抽取图像样本并通过线性混合操作来合成新的图像样本,有效地改进了小样本图像分类的性能。而在文本分类领域,Hu等人就罪名预测任务中的数据集存在的数据不平衡问题,构建了联合罪名预测和法律属性预测的多任分类模型来提高低频罪名的预测性能。
在文本分类领域,本方法及系统关注到相关数据集中也存在着严重的数据不平衡问题。为了提高现有各种模型对少样本类别数据预测性能,本方法及系统采用了融合类别先验信息的Mixup数据增强方法来缓解“长尾分布”带来的不利影响。
发明内容
本发明提供了一种面向不平衡文本分类数据的数据增强方法及系统,以用于如何解决文本分类任务中现有模型对数据集中少样本类别的预测性能不佳以及数据不平衡问题,以便于扩增具有长尾分布的数据集中少样本类别的数据,改善模型的泛化性能,提高模型的各类评价指标的预测性能。
本发明的技术方案是:第一方面,本发明提供一种面向不平衡文本分类数据的数据增强方法,所述方法依次对待处理的存在数据不平衡问题的数据集经过如下处理:数据清洗、文本预处理、先验信息统计、向量化、融入上下文信息、结构化自注意力机制和隐空间数据增强。
作为本发明的进一步方案,所述方法包括以下步骤:
Step1、数据清洗:首先将待处理的存在数据不平衡问题的数据集中的数据以一种固定的格式存储;其次,进行去重、去噪处理,清洗后仍以一种固定的格式存储;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110441775.2/2.html,转载请声明来源钻瓜专利网。