[发明专利]一种文本分类方法、计算机可读储存介质及系统有效
申请号: | 201811045327.5 | 申请日: | 2018-09-07 |
公开(公告)号: | CN109271513B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 曾碧卿;杨健豪;黄泳锐 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 528225 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种文本分类方法、计算机可读储存介质及系统,包括:获取待分类的文本;获得表征待分类的文本的多个字和多个词;获得多个字向量和多个词向量;将多个所述字向量输入到基于字向量的堆栈双向循环神经网络,获得基于字向量的分类结果,将多个所述词向量输入到基于词向量的堆栈双向循环神经网络,获得基于词向量的分类结果;统计表征待分类的文本的字的数目和词的数目,若字数目与词的数目的关系满足设定阈值,则选择基于字向量的分类结果;否则,选择基于词向量的分类结果。通过利用堆栈双向循环神经网络,获取表征文本语义的高层次特征;通过融合待分类的文本的字信息和词信息,提高了准确性,提高了效率。 | ||
搜索关键词: | 一种 文本 分类 方法 计算机 可读 储存 介质 系统 | ||
【主权项】:
1.一种文本分类方法,其特征在于,包括如下步骤:获取待分类的文本;对待分类的文本进行字切割和词切割,获得表征待分类的文本的多个字和多个词;将多个所述字和多个所述词分别进行向量化,获得多个字向量和多个词向量;构建基于字向量的堆栈双向循环神经网络和基于词向量的堆栈双向循环神经网络,并将多个所述字向量输入到基于字向量的堆栈双向循环神经网络,获得基于字向量的分类结果,将多个所述词向量输入到基于词向量的堆栈双向循环神经网络,获得基于词向量的分类结果;统计表征待分类的文本的字的数目和词的数目,若字数目与词的数目的关系满足设定阈值,则选择基于字向量的分类结果;否则,选择基于词向量的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811045327.5/,转载请声明来源钻瓜专利网。