[发明专利]基于生成式对抗网络实现文本分类数据集扩展方法在审

申请号：	201810531534.5	申请日：	2018-05-29
公开（公告）号：	CN108897769A	公开（公告）日：	2018-11-27
发明（设计）人：	崔晓晖;田斐菡;杨威;关景;曹佳敏;唐艺豪;李启琛	申请（专利权）人：	武汉大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	湖北武汉永嘉专利代理有限公司 42102	代理人：	唐万荣;李丹
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据集矩阵向量生成式网络实现文本分类对抗预处理矩阵类别数据数据表示数据扩展原始数据词向量原数据网路科学研究合并分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于生成式对抗网络实现文本分类数据集扩展方法，该方法包括以下步骤：确定需要进行数据扩展的原始数据类别；对相应数据进行预处理，使用word2vec与TFIDF将数据表示成词向量矩阵的形式；使用生成式对抗网路生成扩展的矩阵向量，将原数据的矩阵向量与扩展的矩阵向量合并即实现对数据集的扩展。本发明方法通过扩展稀有类别的数据，有利于研究者对难以获得的数据集进行扩展，提高稀有类别数据的分类精度，方便科学研究。

技术领域

本发明涉及大数据分析技术，尤其涉及一种基于生成式对抗网络实现文本分类数据集扩展方法。

背景技术

随着互联网的高速发展，网络上的信息量呈指数形式增长，其中非结构化文本数据所占比率最大，如何从纷繁的文本数据中挖掘用户感兴趣的信息变得日益重要。文本分类是网络文本数据挖掘的基础，分类结果是好是坏直接影响文本数据挖掘效果，因此如何构建正确率高的文本分类算法是网络信息数据挖掘研究中的重点。

针对文本分类问题，国内外学者和专家投入了大量的时间和精力，进行了深入的研究。一般进行分类有两种方法：人工分类和自动分类。人工分类就是依靠人力对文本进行类别的划分，这种方法费时费力，不过人工分类的一个优点是准确率一般可以得到保证。另一种方法是自动分类，通过计算机采用一定的算法进行自动文本分类，分类复杂度降低，效率大大提高，但是准确率依赖于算法的好坏。

目前最著名的机器学习数据库是由美国加州大学的Irvine分校维护的UCI数据库，其中有各国研究者贡献的在不同时期从不同应用领域收集的数据集。数据集的收集有时是代价昂贵的(如核实验)，有时则是样本稀少的(如航空飞机的着陆控制数据集)，有时则由于涉及个人隐私而难以获得，有时则包含有缺值。因此，数据集是所有研究者共享的宝贵财富。

由于信息资源分布的特点，有些类别的信息明显匮乏，称为稀有类别，这些类别的信息资源有限，导致训练集中稀有类别的文本数量无法和普通类别相比。在现有的文本自动分类技术中，参与分类的各个类别在分类过程中都是平等的，并不会因为某个类是稀有类别就在分类时区别对待。这样，分类时貌似公平的处理在实际应用中其实有着一定程度的不公平。如何相对公平地对待稀有类别，提高稀有类别的分类精度，成为分类过程中需要迫切解决的一个问题。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于生成式对抗网络实现文本分类数据集扩展方法。

本发明解决其技术问题所采用的技术方案是：一种基于生成式对抗网络实现文本分类数据集扩展方法，包括以下步骤：

1)将文本数据集转化为词向量表示；

获取待扩展的文本分类数据集，对数据集中的文本进行特征词提取，用词向量表示特征词，获取特征词的词向量矩阵；

2)利用生成式对抗网络生成文本数据扩展数据集，将步骤1)获得的特征词词向量矩阵作为生成式对抗网络的输入，输出生成的文本数据，获得扩展数据集；

2.1)将步骤1得到的词向量矩阵作为生成式对抗网络的输入，经训练后输出设定数目的模拟数据，输出格式为词向量矩阵；

2.2)将待扩展的文本分类数据与经数据扩展得到的扩展数据合并为新的数据，经过生成式对抗网络得到词向量表现形式的矩阵，即是模拟的该类别下的扩展数据，将原始数据与扩展数据合并，即能满足需要的数据量要求。

按上述方案，所述步骤2.1)中生成式对抗网络如下：

代价函数：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载