[发明专利]文本分类方法在审

专利信息
申请号: 202010595117.4 申请日: 2020-06-24
公开(公告)号: CN111737470A 公开(公告)日: 2020-10-02
发明(设计)人: 刘云翔;徐齐;原鑫鑫;张国庆;唐泽莘 申请(专利权)人: 上海应用技术大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06N3/04;G06N3/08
代理公司: 上海汉声知识产权代理有限公司 31236 代理人: 胡晶
地址: 200235 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 分类 方法
【权利要求书】:

1.一种文本分类方法,其特征在于,包括:

步骤S1,对带标签的文本数据进行清洗,对清洗后的带标签的文本数据划分训练数据集和验证集;

步骤S2,统计训练数据集中的文本数据,然后将文本数据中文本序列替换为单词索引序列;

步骤S3,构建词向量字典;

步骤S4,基于所述词向量字典,将所述单词索引序列映射为文本向量S;

步骤S5,基于所述文本向量S,获取文本全局信息向量S1、S2;

步骤S6,由文本向量S和文本全局信息向量S1、S2计算得到文本向量Sw

步骤S7,利用改进的CNN网络模型提取文本向量Sw中的文本类别信息,以输出文本类别;

步骤S8,根据文本数据的标签和改进的CNN网络模型输出的文本类别和计算损失函数;

步骤S9,重复步骤S2~步骤S8,以批量输入训练数据,使用批量梯度下降算法优化损失函数;

步骤S10,根据改进的CNN网络模型在所述验证集上的表现,选取最优的改进的CNN网络模型作为最终的模型。

2.如权利要求1所述的文本分类方法,其特征在于,对带标签的文本数据进行清洗,包括:

对带标签的文本数据去除多余的符号,保留词语间的空格和预设的必要的标点符号、单词,并将标签用one-hot向量表示。

3.如权利要求1所述的文本分类方法,其特征在于,步骤S2,统计训练数据集中的文本数据,然后将文本数据中文本序列替换为单词索引序列,包括:

首先按照训练数据集中的文本数据的单词频率为每个单词进行编号,然后取前num个频率最高的单词,将用对应的编号分别替换前num个频率最高的单词得到替换后的数据集,其中,num为正整数;

将替换后的数据集中的文本截取或填充为相同长度,该长度设置为平均长度,计算公式为:

其中,n表示数据集大小、Si表示第i个句子、len(Si)表示句子Si的长度。

4.如权利要求1所述的文本分类方法,其特征在于,步骤S3,构建词向量字典,包括:

使用glove预训练词向量或者Word2Vec工具获取单词对应的维度为dim的词向量。

5.如权利要求1所述的文本分类方法,其特征在于,步骤S4,基于所述词向量字典,将所述单词索引序列映射为文本向量S,包括:

构建维度为num*dim的Embedding矩阵,并使用所述Embedding矩阵初始化模型Embedding层,当单词索引序列输入Embedding层后得到文本向量S,其中,dim为正整数。

6.如权利要求1所述的文本分类方法,其特征在于,步骤S5,基于所述文本向量S,获取文本全局信息向量S1、S2,包括:

将所述文本向量S以顺序和逆序的方式输入LSTM网络得到S1、S2向量。

7.如权利要求1所述的文本分类方法,其特征在于,步骤S6,由文本向量S和文本全局信息向量S1、S2计算得到文本向量Sw,包括:

使用权重矩阵WS、WS1、WS2分别对文本向量S和文本全局信息向量S1、S2进行加权求和,得到文本向量Sw,其中,WS、WS1、WS2为dim*dim的方阵,其中,dim为正整数。

8.如权利要求1所述的文本分类方法,其特征在于,利用改进的CNN网络模型提取文本向量Sw中的文本类别信息,以输出文本类别,包括:

使用维度为3*dim过滤器提取文本向量Sw中的文本特征,然后使用前馈神经网络代替Pooling层,使用Relu作为神经网络的激活函数,使用dropout作为正则化方法,最后使用sotfmax层将输入映射为类别概率,以输出文本类别。

9.如权利要求1所述的文本分类方法,其特征在于,所述损失函数计算公式为:

其中,批量大小batch-size=128,y为数据标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010595117.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top