[发明专利]一种文本分类方法、装置及存储介质有效

申请号：	201810200768.1	申请日：	2018-03-12
公开（公告）号：	CN108416032B	公开（公告）日：	2021-06-08
发明（设计）人：	宋彦	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/30;G06N7/00
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	黄威
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了文本分类方法、装置及存储介质，应用于信息处理技术领域。文本分类装置在对待处理文本进行分类时，可以根据主题模型中各个词语的主题分布信息，确定待处理文本中的关键词在主题模型中的第一主题分布信息，然后文本分类模型再根据第一主题分布信息与待处理文本的特征信息的计算结果，确定待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系，即第一主题分布信息，这样可以提高对待处理文本进行分类后，得到的分类结果的有效性。特别是对于待处理文本是短文件时，待处理文本中包含的信息较少，本实施例的方法可以很好地应用于对短文本的分类过程中，具有一定的广泛性。

技术领域

本发明涉及信息处理技术领域，特别涉及一种文本分类方法、装置及存储介质。

背景技术

通常，短文本分类任务着眼于在长度较短的文本上，通常是一句话或者搜索引擎的检索查询(query)，对短文本按照主题或者其它类别信息进行区分。现有技术中，在对短文本进行分类时，主要采用主题模型或神经网络的方法进行分类，具体地：

在使用主题模型进行短文本分类时，主要是通过无监督或者半监督的学习方法对短文本类别进行判断，在这个过程中，为了得到有效的词语(或其他符号)关系描述，这类方法通常需要利用一般性的篇章级文本数据构建概率主题模型。但是由于短文本中包含词语较少，直接在短文本上使用主题模型往往无法得到合理的词语关系建模。

而在使用神经网络的方法进行短文本分类时，直接通过训练的神经网络的分类器对短文本进行分类。这是最直接的一种短文本分类方案，不需要对短文本中的词语关系进行描述，但是其中神经网络的分类器是在长文本上直接训练得到的，没有不考虑短文本的特点，很多情况下对于短文本的分类效果不佳。

发明内容

本发明实施例提供一种文本分类方法、装置及存储介质，实现了根据主题模型与文本分类模型的结合对待处理文本进行分类。

本发明实施例第一方面提供一种文本分类方法，包括：

确定主题模型，及确定文本分类模型，所述主题模型包括各个词语的主题分布信息；

根据所述各个词语的主题分布信息，确定待处理文本中的关键词在所述主题模型中的第一主题分布信息；

通过文本分类模型获取所述待处理文本的特征信息；