[发明专利]一种基于N-gram向量和卷积神经网络的中文文本多分类方法有效
申请号: | 201810996666.5 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109241530B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 相艳;许莹 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35;G06N3/04;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 gram 向量 卷积 神经网络 中文 文本 分类 方法 | ||
1.一种基于N-gram向量和卷积神经网络的中文文本多分类方法,其特征在于:包括以下步骤:
Step1:文本预处理:首先针对中文文本,进行中文分词及文本去噪;然后对文本分别进行一元、二元、三元标注,分别得到unigram,bigrams,trigrams;
Step2:特征选择:计算文本语料中每个n-gram在本类别中所占的权重r,对r降序排序,接着对按照特定的挑选规则选择出来的n-gram进行glove词向量的表达;最后把glove词向量表达后的n-gram进行kmeans聚类,得到每一类n-gram的中心词向量;
Step3:初始化卷积核参数:用Step2得到的n-gram的中心词向量进行初始化卷积核参数,训练文本分类模型,最后得出多分类结果,采用十折交叉验证的方法对模型评估;
所述的Step2具体步骤如下:
Step2.1:计算n-gram权重:判断词语是否为该类别中重要的词语,是通过计算词语在此类别中所占的一个权重r来筛选的,r通过log函数平滑处理,并根据数值大小对权重降序排序,通过观察每个类别中n-gram的r曲线图,选择一部分n-gram作为最能表达文本特征的词语;
Step2.2:n-gram词向量表达:经过Step2.1的筛选得到最能表达文本特征的词语,词向量来自预先训练好的中文glove词向量,glove词向量通过开源工具包glove和源文件glove.c进行训练得到,词向量训练语料来自网上共享的新闻语料;通过glove词向量表达,unigram得到300维的词向量,bigrams得到600维的词向量,trigrams得到900维的词向量;
Step2.3: n-gram聚类:把Step2.2得到的unigram300维的词向量,bigrams600维的词向量,trigrams900维的词向量分别进行kmeans聚类,用一类n-gram的中心词向量特征代表此类中每一个n-gram的词向量特征,聚类簇数的选择需要考虑unigram,bigrams和trigrams的个数,通过计算发现不同语料中n-gram的比例关系也有一定的差异;
所述的Step3具体步骤如下:
Step3.1:初始化CNN滤波器参数:将Step2.3得到的中心词向量初始化CNN滤波器即卷积核模板参数,并训练模型,卷积神经网络结构包括卷积层、池化层、全连接层、输出层;
载入选取的Step2.3得到的n-gram中心词向量对卷积核模板参数和池化层参数进行更新,卷积核大小设为3,4,5,嵌入过程中,unigram中心词向量只嵌入到卷积核为3的CNN模板中对其初始化,bigrams中心词向量只嵌入到卷积核为4的CNN模板中对其初始化,trigrams词向量嵌入到卷积核5的CNN模板中对其初始化;
Step3.2:卷积层:卷积层的滤波器尺寸可以设置为多个,当设置3,4,5三种尺寸的滤波器时,卷积层滤波器参数矩阵维度分别为(100, 1, 3, 300), (100, 1, 4, 600), (100,1, 5, 900),在卷积层获取待分类语料文本中每一个词的向量化表示并组成映射矩阵,映射矩阵为一个三维的张量:文本句子,整个语料库文本数,词向量维度,卷积层与载入的映射矩阵作二维卷积运算,卷积运算后得到更多有用的特征feature maps;
Step3.3:池化层:卷积操作以后对卷积层特征进行池化操作,使用K-max pooling算法对Step3.2得到的feature maps进行下采样;
Step3.4:全连接层:对Step3.3得到的最大值特征进行特征向量连接,形成一维特征向量;
Step3.5:输出层:把Step3.4的全连接层特征接入softmax分类器,对文本类别进行预测;
Step3.6:性能评估:原始数据集不分训练集、测试集和验证集,通过十折交叉验证的方法对模型进行评价,每次随机抽取数据集的9/10作为训练集,1/10作为测试集,进行十次随机划分后,计算十次测试集分类准确率,最后取十次准确率的平均值作为此次实验测试集分类的最终准确率。
2.根据权利要求1所述的基于N-gram向量和卷积神经网络的中文文本多分类方法,其特征在于:所述的Step1具体步骤如下:
Step1.1:文本分词:使用现有的中文分词工具ICTCLAS2014,通过分词算法计算机自动切分词或词组;
Step1.2:文本去噪:去除原始语料无关的文本内容;
Step1.3:对词语进行N元标注:文本信息对应于以概率生成语句,在给定前n-1个词的基础上,预测下一个词出现的概率,从而计算出训练语料中不同词序列的概率,通过n元标注的处理,分好词的文本数据集转换成n元标注的文本,1元标注得到的词语是由单字组成的,对中文而言,分词后的单个词组标注为unigram,两个分词后的词组标注为bigrams,同理,三个分词后的词组标注为trigrams。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810996666.5/1.html,转载请声明来源钻瓜专利网。