[发明专利]文本分类方法在审
申请号: | 202010595117.4 | 申请日: | 2020-06-24 |
公开(公告)号: | CN111737470A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 刘云翔;徐齐;原鑫鑫;张国庆;唐泽莘 | 申请(专利权)人: | 上海应用技术大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 | ||
1.一种文本分类方法,其特征在于,包括:
步骤S1,对带标签的文本数据进行清洗,对清洗后的带标签的文本数据划分训练数据集和验证集;
步骤S2,统计训练数据集中的文本数据,然后将文本数据中文本序列替换为单词索引序列;
步骤S3,构建词向量字典;
步骤S4,基于所述词向量字典,将所述单词索引序列映射为文本向量S;
步骤S5,基于所述文本向量S,获取文本全局信息向量S1、S2;
步骤S6,由文本向量S和文本全局信息向量S1、S2计算得到文本向量Sw;
步骤S7,利用改进的CNN网络模型提取文本向量Sw中的文本类别信息,以输出文本类别;
步骤S8,根据文本数据的标签和改进的CNN网络模型输出的文本类别和计算损失函数;
步骤S9,重复步骤S2~步骤S8,以批量输入训练数据,使用批量梯度下降算法优化损失函数;
步骤S10,根据改进的CNN网络模型在所述验证集上的表现,选取最优的改进的CNN网络模型作为最终的模型。
2.如权利要求1所述的文本分类方法,其特征在于,对带标签的文本数据进行清洗,包括:
对带标签的文本数据去除多余的符号,保留词语间的空格和预设的必要的标点符号、单词,并将标签用one-hot向量表示。
3.如权利要求1所述的文本分类方法,其特征在于,步骤S2,统计训练数据集中的文本数据,然后将文本数据中文本序列替换为单词索引序列,包括:
首先按照训练数据集中的文本数据的单词频率为每个单词进行编号,然后取前num个频率最高的单词,将用对应的编号分别替换前num个频率最高的单词得到替换后的数据集,其中,num为正整数;
将替换后的数据集中的文本截取或填充为相同长度,该长度设置为平均长度,计算公式为:
其中,n表示数据集大小、Si表示第i个句子、len(Si)表示句子Si的长度。
4.如权利要求1所述的文本分类方法,其特征在于,步骤S3,构建词向量字典,包括:
使用glove预训练词向量或者Word2Vec工具获取单词对应的维度为dim的词向量。
5.如权利要求1所述的文本分类方法,其特征在于,步骤S4,基于所述词向量字典,将所述单词索引序列映射为文本向量S,包括:
构建维度为num*dim的Embedding矩阵,并使用所述Embedding矩阵初始化模型Embedding层,当单词索引序列输入Embedding层后得到文本向量S,其中,dim为正整数。
6.如权利要求1所述的文本分类方法,其特征在于,步骤S5,基于所述文本向量S,获取文本全局信息向量S1、S2,包括:
将所述文本向量S以顺序和逆序的方式输入LSTM网络得到S1、S2向量。
7.如权利要求1所述的文本分类方法,其特征在于,步骤S6,由文本向量S和文本全局信息向量S1、S2计算得到文本向量Sw,包括:
使用权重矩阵WS、WS1、WS2分别对文本向量S和文本全局信息向量S1、S2进行加权求和,得到文本向量Sw,其中,WS、WS1、WS2为dim*dim的方阵,其中,dim为正整数。
8.如权利要求1所述的文本分类方法,其特征在于,利用改进的CNN网络模型提取文本向量Sw中的文本类别信息,以输出文本类别,包括:
使用维度为3*dim过滤器提取文本向量Sw中的文本特征,然后使用前馈神经网络代替Pooling层,使用Relu作为神经网络的激活函数,使用dropout作为正则化方法,最后使用sotfmax层将输入映射为类别概率,以输出文本类别。
9.如权利要求1所述的文本分类方法,其特征在于,所述损失函数计算公式为:
其中,批量大小batch-size=128,y为数据标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010595117.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种尿素管电加热装置
- 下一篇:数据处理的方法、装置及存储介质