[发明专利]一种基于卷积神经网络与随机森林的短文本分类方法有效
申请号: | 201710181062.0 | 申请日: | 2017-03-24 |
公开(公告)号: | CN107066553B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 刘泽锦;王洁 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 随机 森林 文本 分类 方法 | ||
1.一种基于卷积神经网络与随机森林的短文本分类方法,其特征在于:该方法包括以下步骤:
步骤1:对待分类语料库中所有中文文本进行分词,分别使用word2vec和glove词向量训练工具得到语料库的两组词向量,将文本表示为两个维度相等的矩阵;分别对两个矩阵进行二维卷积操作,得到两个卷基层特征图;
步骤2:卷积操作之后,分别对两个卷基层特征图进行池化操作,得到两个池化层特征矩阵;对该池化层特征矩阵进行非线性sigmoid变换,得到两个池化层特征图;
步骤3:对步骤2得到的两个池化层特征图进行卷积操作,得到最终的单个全连接层特征图;
步骤4:将步骤3得到的全连接特征图作为随机森林层的输入数据集,对该数据集进行Boostrap采样,对于有m个样本的数据集D,进行m次有放回采样得到新数据集D′,明显D与D′大小相同,而且放回采样使得D′中有重复出现的样本,也有样本没有出现;
步骤5:对多个Boostrap样本集分别使用Gini系数法建立分类与回归树CART,Gini系数用于特征选择,用该特征将特征空间进行划分,划分之后从特征集合中去除此特征,对左右子树分别递归执行特征选取与特征划分操作直到满足停止条件;此外为防止决策树过拟合现象的发生,采用预剪枝操作;将多个决策树组合起来,共同为样本的类别进行决策,采用投票法。
2.根据权利要求1所述的一种基于卷积神经网络与随机森林的短文本分类方法,其特征在于:
该方法的具体实施过程分为以预训练阶段与分类器训练阶段:
一:预训练阶段
步骤1:得到两组词向量后,对于数据集D,用x表示一篇文本,则代表文本中第i个词语的词向量,一个长度为n的句子表示成如下形式:
这里变为向量拼接操作,n为训练语料中最长的句子的长度;对于长度不足n的文本则用特殊符号PAD进行补齐,使用(-0.25,0.25)之间的均匀分布生成的向量表示PAD;对于维度为k的词向量,每篇文本x表示为两个的单通道(Channel)二维矩阵,即为两个输入层;
步骤2:分别对两个输入层进行卷积操作,使用的过滤器作用于词向量序列xi:i+h-1={xi,xi+1,...,xi+h-1}上:
ci=f(W·xi:i+h-1+b)
其中h即为过滤器在词语窗口上的尺寸,为一个偏置项,f为非线性激活函数;过滤器W会作用于整个词向量序列{x1:h,x2:h+1,...,xn-h+1:n}上,来产生卷积层特征图
Cconv=[Cconv,1,Cconv,2,...,Cconv,n-h+1]
为充分提取特征,训练过程中设置不同跨度的过滤器m个,用{W1,W2,...Wm}表示,每种过滤器分别设置个,令即会产生m×s个特征图,之后便使用最大值池化(Max-pooling-over-time)操作作用于单个特征图Cconv之上,来得到特征图中最重要的特征
步骤3:步骤2将会产生m×s个池化层特征,将其拼接起来便得到池化层特征其中l=1,2分别代表两组词向量的池化层特征;
步骤4:对两个池化层特征进行卷积操作,得到最终的全连接层特征Cfinal,Cfinal,i代表Cfinal的分量:
步骤5:全连接层特征之后接入Softmax分类器,整个预训练阶段的模型使用Adam批量梯度下降算法训练即可,用BP算法对各层参数调整,待收敛后记录下整个CNN的参数θ;训练时采用Dropout与L2正则防止过拟合;
二:分类器训练阶段
步骤6:读取步骤5中的参数θ,采用随机森林模型替换Softmax模型,将全连接层特征Cfinal送入随机森林进行训练;首先设置森林中决策树N的大小,进行Bootstrap抽样得到N个数据集,接下来学习N颗树中每颗树的参数θ0,由于森林中各个树之间的训练过程相互没有影响,因此试验中采用并行训练的方式来加快速度;
步骤7:单个决策树训练完成后,最后以投票的方法得到CNN-RF模型的输出:
Ti(x)是树i对样本x的分类结果,即投票法,c*即为样本对应最终类别,N为随机森林中决策树的数目;由于随机森林的全连接层特征Cfinal维度不大,数据集中均有m×s<103,所以建立随机森林的开销非常小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710181062.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种游戏用户数据的存储方法及系统
- 下一篇:微博相关人物推荐方法