[发明专利]一种文本分类方法、装置及存储介质有效
申请号: | 201810200768.1 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108416032B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 宋彦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N7/00 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 存储 介质 | ||
本发明实施例公开了文本分类方法、装置及存储介质,应用于信息处理技术领域。文本分类装置在对待处理文本进行分类时,可以根据主题模型中各个词语的主题分布信息,确定待处理文本中的关键词在主题模型中的第一主题分布信息,然后文本分类模型再根据第一主题分布信息与待处理文本的特征信息的计算结果,确定待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系,即第一主题分布信息,这样可以提高对待处理文本进行分类后,得到的分类结果的有效性。特别是对于待处理文本是短文件时,待处理文本中包含的信息较少,本实施例的方法可以很好地应用于对短文本的分类过程中,具有一定的广泛性。
技术领域
本发明涉及信息处理技术领域,特别涉及一种文本分类方法、装置及存储介质。
背景技术
通常,短文本分类任务着眼于在长度较短的文本上,通常是一句话或者搜索引擎的检索查询(query),对短文本按照主题或者其它类别信息进行区分。现有技术中,在对短文本进行分类时,主要采用主题模型或神经网络的方法进行分类,具体地:
在使用主题模型进行短文本分类时,主要是通过无监督或者半监督的学习方法对短文本类别进行判断,在这个过程中,为了得到有效的词语(或其他符号)关系描述,这类方法通常需要利用一般性的篇章级文本数据构建概率主题模型。但是由于短文本中包含词语较少,直接在短文本上使用主题模型往往无法得到合理的词语关系建模。
而在使用神经网络的方法进行短文本分类时,直接通过训练的神经网络的分类器对短文本进行分类。这是最直接的一种短文本分类方案,不需要对短文本中的词语关系进行描述,但是其中神经网络的分类器是在长文本上直接训练得到的,没有不考虑短文本的特点,很多情况下对于短文本的分类效果不佳。
发明内容
本发明实施例提供一种文本分类方法、装置及存储介质,实现了根据主题模型与文本分类模型的结合对待处理文本进行分类。
本发明实施例第一方面提供一种文本分类方法,包括:
确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;
根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;
通过文本分类模型获取所述待处理文本的特征信息;
及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。
本发明实施例第二方面提供一种文本分类装置,包括:
模型确定单元,用于确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;
分布确定单元,用于根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;
特征获取单元,用于通过文本分类模型获取所述待处理文本的特征信息;
及类别确定单元,用于通过所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。
本发明实施例第三方面提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本发明实施例第一方面所述的文本分类方法。
本发明实施例第四方面提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如本发明实施例第一方面所述的文本分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810200768.1/2.html,转载请声明来源钻瓜专利网。