[发明专利]文本分类方法在审
申请号: | 202010595117.4 | 申请日: | 2020-06-24 |
公开(公告)号: | CN111737470A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 刘云翔;徐齐;原鑫鑫;张国庆;唐泽莘 | 申请(专利权)人: | 上海应用技术大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 | ||
本发明提供了一种文本分类方法,方法首先对带标签的文本数据进行清洗,分数据集;然后将文本序列映射为文本向量S;并将文本向量S输入到双向LSTM网络中得到与文本向量S维度相同的文本向量S1、S2,由文本向量S、S1、S2计算得到文本向量Sw。最后,将句子Sw输入到神经网络中按照预设的超参数训练模型,根据模型在验证集上的表现选取最优的模型。本发明利用LSTM网络获取全局文本信息,并通过加权求和方式得到包含全局信息的文本向量Sw,实验结果显示,该模型取得了较好的分类精度。
技术领域
本发明涉及一种文本分类方法。
背景技术
文本分类在信息处理中占据着重要的地位,随着互联网的发展海量的文本数据不断产生,这些文本数据中存在着大量的信息,利用有效的方法对这些信息进行有效的管理和提取对企业和社会信息技术发展有着重大作用。
目前,深度学习技术被广泛的应用在文本分类任务上。
具体来说,Kim等人将CNN应用在文本分类任务上,利用卷积层获取局部的文本信息。但卷积网络无法很好的利用文本的序列信息。
之后人们将RNN以及在RNN基础上改进的LSTM网络应用在文本分类任务上取得了更好的分类效果。但是,由于人类语言存在的歧义性,相同的词在不同的上下文语意中有着不同的含义。传统的RNN、LSTM网络按照文本序列处理文本信息忽略了后文信息对当前词义的影响。
发明内容
本发明的目的在于提供一种文本分类方法。
为解决上述问题,本发明提供一种文本分类方法,包括:
步骤S1,对带标签的文本数据进行清洗,对清洗后的带标签的文本数据划分训练数据集和验证集;
步骤S2,统计训练数据集中的文本数据,然后将文本数据中文本序列替换为单词索引序列;
步骤S3,构建词向量字典;
步骤S4,基于所述词向量字典,将所述单词索引序列映射为文本向量S;
步骤S5,基于所述文本向量S,获取文本全局信息向量S1、S2;
步骤S6,由文本向量S和文本全局信息向量S1、S2计算得到文本向量Sw;
步骤S7,利用改进的CNN网络模型提取文本向量Sw中的文本类别信息,以输出文本类别;
步骤S8,根据文本数据的标签和改进的CNN网络模型输出的文本类别和计算损失函数;
步骤S9,重复步骤S2~步骤S8,以批量输入训练数据,使用批量梯度下降算法优化损失函数;
步骤S10,根据改进的CNN网络模型在所述验证集上的表现,选取最优的改进的CNN网络模型作为最终的模型。
进一步的,在上述方法中,对带标签的文本数据进行清洗,包括:
对带标签的文本数据去除多余的符号,保留词语间的空格和预设的必要的标点符号、单词,并将标签用one-hot向量表示。
进一步的,在上述方法中,步骤S2,统计训练数据集中的文本数据,然后将文本数据中文本序列替换为单词索引序列,包括:
首先按照训练数据集中的文本数据的单词频率为每个单词进行编号,然后取前num个频率最高的单词,将用对应的编号分别替换前num个频率最高的单词得到替换后的数据集,其中,num为正整数;
将替换后的数据集中的文本截取或填充为相同长度,该长度设置为平均长度,计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010595117.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种尿素管电加热装置
- 下一篇:数据处理的方法、装置及存储介质