[发明专利]一种文本分类方法及装置在审
申请号: | 201710003223.7 | 申请日: | 2017-01-03 |
公开(公告)号: | CN108268560A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 王朝民;丛鹏宇;王惠欣;任智杰;冯俊兰;孙佳 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;蒋雅洁 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 文本分类 主题向量 矢量确定 主题模型 矢量 词语 | ||
本发明公开了一种文本分类方法及装置,所述方法包括:基于主题模型确定文本对应的主题向量;根据所述文本中包含的至少一个词语,确定所述文本对应的词矢量;利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。
技术领域
本发明涉及通信领域中的连接管理技术,尤其涉及一种文本分类方法及装置。
背景技术
文本表示是将无结构的原始文本转化为结构化的计算机可以识别处理的信息的过程,目前使用比较广泛的文本表示方法有热词(one-hot)、词频-逆文本频率(TFIDF)、词矢量(Word Embedding)三种。
具体的:one-hot是使用一个词典大小的向量表示一个文本,每一维对应一个词,只有一个维度的值为1,这个维度就代表了当前的词,其他维度的元素全部为0。TFIDF同样每一维对应一个词,但是该维的值为TFIDF值,不是二值1或0;TF称为词频,用于计算该词描述文本内容的能力;IDF称为反文本频率,用于计算该词区分文本的能力。Word Embedding是一种低维实数向量,最大的贡献是让相关的词在距离上更接近了。
但是,利用one-hot表示文本,每个文本都需要长向量来表示,这种表示庞大而稀疏,而且不包含文本的语义信息;利用TFIDF表示文本,每个文本同样都需要长向量来表示,而且无法体现单词的位置;利用Word Embedding表示文本,相同上下文的词具有相同的词矢量,但这些词实际上差别很大,所以在文本表示精确度方面欠佳。
发明内容
本发明的主要目的在于提出一种文本分类方法及装置,旨在解决现有技术中存在的上述问题。
为实现上述目的,本发明提供的一种文本分类方法,所述方法包括:
基于主题模型确定文本对应的主题向量;
根据所述文本中包含的至少一个词语,确定所述文本对应的词矢量;
利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。
本发明提供一种文本分类装置,所述装置包括:
主题向量处理单元,用于基于主题模型确定文本对应的主题向量;
词矢量处理单元,用于根据所述文本中包含的至少一个词语,确定所述文本对应的词矢量;
分类单元,用于利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。
本发明提出的一种文本分类方法及服务器,就能够对文本进行主题向量以及词矢量的分析,基于主题向量以及词矢量作为文本的表示并确定所述文本对应的类别。如此,在文本分类的关键步骤文本表示上,同时加入文本的语义信息和主题信息,从而避开了文本表示庞大而稀疏的问题,取得较好的分类效果。
附图说明
图1为本发明实施例文本分类方法流程示意图;
图2为本发明实施例场景示意图一;
图3为本发明实施例场景示意图二;
图4为本发明实施例文本分类装置组成结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例一、
本发明实施例提供了一种文本分类方法,如图1所示,包括:
步骤101:基于主题模型确定文本对应的主题向量;
步骤102:根据所述文本中包含的至少一个词语,确定所述文本对应的词矢量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团公司,未经中国移动通信有限公司研究院;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710003223.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于票务搜索的信息提供方法和装置
- 下一篇:查询数据库的方法和装置