[发明专利]一种文本分类方法及装置在审

申请号：	201710003223.7	申请日：	2017-01-03
公开（公告）号：	CN108268560A	公开（公告）日：	2018-07-10
发明（设计）人：	王朝民;丛鹏宇;王惠欣;任智杰;冯俊兰;孙佳	申请（专利权）人：	中国移动通信有限公司研究院;中国移动通信集团公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	张颖玲;蒋雅洁
地址：	100053 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本文本分类主题向量矢量确定主题模型矢量词语
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本分类方法及装置，所述方法包括：基于主题模型确定文本对应的主题向量；根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量；利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。

技术领域

本发明涉及通信领域中的连接管理技术，尤其涉及一种文本分类方法及装置。

背景技术

文本表示是将无结构的原始文本转化为结构化的计算机可以识别处理的信息的过程，目前使用比较广泛的文本表示方法有热词(one-hot)、词频-逆文本频率(TFIDF)、词矢量(Word Embedding)三种。

具体的：one-hot是使用一个词典大小的向量表示一个文本，每一维对应一个词，只有一个维度的值为1，这个维度就代表了当前的词，其他维度的元素全部为0。TFIDF同样每一维对应一个词，但是该维的值为TFIDF值，不是二值1或0；TF称为词频,用于计算该词描述文本内容的能力；IDF称为反文本频率,用于计算该词区分文本的能力。Word Embedding是一种低维实数向量，最大的贡献是让相关的词在距离上更接近了。

但是，利用one-hot表示文本，每个文本都需要长向量来表示，这种表示庞大而稀疏，而且不包含文本的语义信息；利用TFIDF表示文本，每个文本同样都需要长向量来表示，而且无法体现单词的位置；利用Word Embedding表示文本，相同上下文的词具有相同的词矢量，但这些词实际上差别很大，所以在文本表示精确度方面欠佳。

发明内容

本发明的主要目的在于提出一种文本分类方法及装置，旨在解决现有技术中存在的上述问题。

为实现上述目的，本发明提供的一种文本分类方法，所述方法包括：

基于主题模型确定文本对应的主题向量；

根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量；

利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。

本发明提供一种文本分类装置，所述装置包括：

主题向量处理单元，用于基于主题模型确定文本对应的主题向量；

词矢量处理单元，用于根据所述文本中包含的至少一个词语，确定所述文本对应的词矢量；

分类单元，用于利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。

本发明提出的一种文本分类方法及服务器，就能够对文本进行主题向量以及词矢量的分析，基于主题向量以及词矢量作为文本的表示并确定所述文本对应的类别。如此，在文本分类的关键步骤文本表示上，同时加入文本的语义信息和主题信息，从而避开了文本表示庞大而稀疏的问题，取得较好的分类效果。

附图说明