[发明专利]一种文本分类方法、计算机可读储存介质及系统有效

专利信息
申请号: 201811045327.5 申请日: 2018-09-07
公开(公告)号: CN109271513B 公开(公告)日: 2021-10-22
发明(设计)人: 曾碧卿;杨健豪;黄泳锐 申请(专利权)人: 华南师范大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33
代理公司: 广州骏思知识产权代理有限公司 44425 代理人: 吴静芝
地址: 528225 广东省佛山市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 分类 方法 计算机 可读 储存 介质 系统
【说明书】:

发明涉及一种文本分类方法、计算机可读储存介质及系统,包括:获取待分类的文本;获得表征待分类的文本的多个字和多个词;获得多个字向量和多个词向量;将多个所述字向量输入到基于字向量的堆栈双向循环神经网络,获得基于字向量的分类结果,将多个所述词向量输入到基于词向量的堆栈双向循环神经网络,获得基于词向量的分类结果;统计表征待分类的文本的字的数目和词的数目,若字数目与词的数目的关系满足设定阈值,则选择基于字向量的分类结果;否则,选择基于词向量的分类结果。通过利用堆栈双向循环神经网络,获取表征文本语义的高层次特征;通过融合待分类的文本的字信息和词信息,提高了准确性,提高了效率。

技术领域

本发明涉及自然语言处理领域,特别是涉及一种文本分类方法、计算机可读储存介质及系统。

背景技术

随着互联网技术的发展,人们利用互联网发表可以各种言论,因此也产生了海量的文本信息。这些文本信息表达了人们的选择倾向性,提供了一个信息展示和交流的平台。如何从这些文本信息中获取选择倾向信息,成为了研究的话题。其中,发明人在作出本发明创造的过程中,发现获取选择信息的方式效率低下、分析准确率低。

发明内容

基于此,本发明的目的在于,提供一种文本分类方法,其具有提高准确性,提高效率的优点。

一种文本分类方法,包括如下步骤:

获取待分类的文本;

对待分类的文本进行字切割和词切割,获得表征待分类的文本的多个字和多个词;

将多个所述字和多个所述词分别进行向量化,获得多个字向量和多个词向量;

构建基于字向量的堆栈双向循环神经网络和基于词向量的堆栈双向循环神经网络,并将多个所述字向量输入到基于字向量的堆栈双向循环神经网络,获得基于字向量的分类结果,将多个所述词向量输入到基于词向量的堆栈双向循环神经网络,获得基于词向量的分类结果;其中,所述堆栈双向循环神经网络包括三层BLSTM层和一层Sigmod层;每层BLSTM层堆叠了多个LSTM单元,每层的多个LSTM单元又分层级分布,每层的多个LSTM单元均设置了相应的权重参数;每个LSTM单元均以同层的上一级的LSTM单元和/或上一层LSTM单元的输出作为输入,最后在Sigmod层获得输出结果;

统计表征待分类的文本的字的数目和词的数目,若字的数目小于或等于词的数目的一半,则选择基于字向量的分类结果;否则,选择基于词向量的分类结果。

通过利用堆栈双向循环神经网络,可结合待分类的文本中的上下问内容进行分析,可获取表征文本语义的高层次特征;通过融合待分类的文本的字信息和词信息,提高了准确性,提高了效率。

进一步地,所述构建基于字向量的堆栈双向循环神经网络的步骤,包括:

获取多个训练文本、以及各训练文本对应的选择标签;

将各训练文本分别进行字切割,获得表征各训练文本的多个字;

将表征各训练文本的多个所述字进行向量化,获得多个字向量;

将各训练文本对应的多个所述字向量、以及各训练文本对应的选择标签,输入到基于字向量的堆栈双向循环神经网络中进行训练,并优化堆栈双向循环神经网络的各参数,获得基于字向量的堆栈双向循环神经网络。

进一步地,所述构建基于词向量的堆栈双向循环神经网络的步骤,包括:

获取多个训练文本、以及各训练文本对应的选择标签;

将各训练文本分别进行词切割,获得表征各训练文本的多个词;

将表征各训练文本的多个所述词进行向量化,获得多个词向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811045327.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top