[发明专利]文本分类方法在审

申请号：	202010595117.4	申请日：	2020-06-24
公开（公告）号：	CN111737470A	公开（公告）日：	2020-10-02
发明（设计）人：	刘云翔;徐齐;原鑫鑫;张国庆;唐泽莘	申请（专利权）人：	上海应用技术大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36;G06N3/04;G06N3/08
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	胡晶
地址：	200235 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种文本分类方法，方法首先对带标签的文本数据进行清洗，分数据集；然后将文本序列映射为文本向量S；并将文本向量S输入到双向LSTM网络中得到与文本向量S维度相同的文本向量S1、S2，由文本向量S、S1、S2计算得到文本向量S_w。最后，将句子S_w输入到神经网络中按照预设的超参数训练模型，根据模型在验证集上的表现选取最优的模型。本发明利用LSTM网络获取全局文本信息，并通过加权求和方式得到包含全局信息的文本向量S_w，实验结果显示，该模型取得了较好的分类精度。

技术领域

本发明涉及一种文本分类方法。

背景技术

文本分类在信息处理中占据着重要的地位，随着互联网的发展海量的文本数据不断产生，这些文本数据中存在着大量的信息，利用有效的方法对这些信息进行有效的管理和提取对企业和社会信息技术发展有着重大作用。

目前，深度学习技术被广泛的应用在文本分类任务上。

具体来说，Kim等人将CNN应用在文本分类任务上，利用卷积层获取局部的文本信息。但卷积网络无法很好的利用文本的序列信息。

之后人们将RNN以及在RNN基础上改进的LSTM网络应用在文本分类任务上取得了更好的分类效果。但是，由于人类语言存在的歧义性，相同的词在不同的上下文语意中有着不同的含义。传统的RNN、LSTM网络按照文本序列处理文本信息忽略了后文信息对当前词义的影响。

发明内容

本发明的目的在于提供一种文本分类方法。

为解决上述问题，本发明提供一种文本分类方法，包括：

步骤S1，对带标签的文本数据进行清洗，对清洗后的带标签的文本数据划分训练数据集和验证集；

步骤S2，统计训练数据集中的文本数据，然后将文本数据中文本序列替换为单词索引序列；