[发明专利]一种面向不平衡文本分类数据的数据增强方法及系统在审
申请号: | 202110441775.2 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113076424A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 线岩团;陈文仲;相艳;张亚飞;王红斌 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/289;G06N3/04 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 不平衡 文本 分类 数据 增强 方法 系统 | ||
1.一种面向不平衡文本分类数据的数据增强方法,其特征在于:所述方法依次对待处理的存在数据不平衡问题的数据集经过如下处理:数据清洗、文本预处理、先验信息统计、向量化、融入上下文信息、结构化自注意力机制和隐空间数据增强。
2.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法,其特征在于:所述方法包括以下步骤:
Step1、数据清洗:首先将待处理的存在数据不平衡问题的数据集中的数据以一种固定的格式存储;其次,进行去重、去噪处理,清洗后仍以一种固定的格式存储;
Step2、文本预处理:对数据清洗后样本的文本表示进行分词和词性标注;然后依据具体的文本分类任务具有的特性,对文本中的标点符号、数字、时间、地址、专有名词有选择的进行预处理;
Step3、先验信息统计:筛选出数据集中包含的所有类别的标签,对各类标签进行数字化编号;统计数据集中各类别样本的频率,计算每类样本的占比作为类别先验信息;
Step4、向量化:在批次训练过程中,将一个批次样本的文本表示输入嵌入层获取词嵌入;
Step5、融入上下文信息:在将样本的文本表示向量化后采用编码器将其中每个词都融入上下文信息;
Step6、结构化自注意力机制:得到了具有上下文语义的词序列的隐状态表示后,再采用结构化自注意力机制来计算文本的多个侧面的向量表示;
Step7、隐空间数据增强:经过以上的Step1-Step6处理后,在批次训练过程中随机抽取批次内的两对样本,利用它们所属类别样本的先验信息先后计算类别混合因子和标签混合因子,在此之后,再计算隐空间中的合成样本。
3.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法,其特征在于:所述数据清洗包括将数据集中数据包括样本及其标签存储为格式化数据;数据清洗中的去重具体是指去除数据集中存在的重复冗余数据;数据清洗中的去噪具体是指去除数据集中的噪声数据,噪声数据包括空数据、残缺数据、无用数据、低信息量数据。
4.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法,其特征在于:所述文本预处理包括对每个样本的文本表示进行分词和词性标注;文本中的数字包括金额、重量、年龄、含量、手机号、车牌号、银行账号;专有名词包括品牌名、人名地名组织机构名。
5.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法,其特征在于:所述先验信息统计包括对数据集中每类样本的占比计算,将每类样本的占比作为先验信息在批次训练过程中计算类别混合因子和标签混合因子,进而指导隐空间中少样本类别的数据增强过程。
6.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法,其特征在于:所述向量化包括一个批次内各样本经过嵌入层获取各个词语的向量化表示过程,这里的嵌入层使用预训练词向量,包括word2vec、glove。
7.根据权利要求1所述的一种面向不平衡文本分类数据的数据增强方法,其特征在于:所述结构化自注意力机制包括从多个侧面捕捉分类细节的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110441775.2/1.html,转载请声明来源钻瓜专利网。