[发明专利]一种文本分类的方法和装置有效
申请号: | 201510364152.4 | 申请日: | 2015-06-26 |
公开(公告)号: | CN105005589B | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 邹缘孙 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司11138 | 代理人: | 刘映东 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,特别涉及一种文本分类的方法和装置。
背景技术
随着互联网技术的发展,互联网上的文本越来越多,大量的文本给用户提供方便的同时也给用户的查找带来了很大的不便,面对这个问题,文本分类被提出来了,文本分类能够按照预先定义的主题类别,为文本确定一个类别,将文本按照类别进行分类,从而方便用户查找。
现有技术提供了一种文本分类的方法,可以为:服务器获取大量人工标注的文本样本,获取这些文本样本的特征,根据这些文本样本的特征对分类器进行训练;对分类器训练完成之后,服务器可以采用该分类器对需要分类的文本进行分类,具体过程为:服务器取待分类的文本的特征,根据待分类的文本的特征,通过训练后的分类器对待分类的文本进行分类。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
待分类的文本的特征往往是待分类的文本中的一个关键的词语,仅仅根据待分类的文本中的一个关键的词语对待分类的文本进行分类显然不准确,例如,一个关于描述开发游戏资金消耗问题的文本,服务器获取的这个文本的特征可能是“游戏”,根据该特征“游戏”确定该文本的类别为“游戏”,然而该文本的重点主要是资金消耗问题,将该文本的类别确定为“财经”更合适,因此,通过该文本的特征对该文本进行分类的准确性低。
发明内容
为了解决现有技术的问题,本发明提供了一种文本分类的方法和装置。技术方案如下:
一种文本分类的方法,所述方法包括:
获取待分类的文本包括的每个词语的词向量、词频、权重和逆文档频率;
根据所述每个词语的词向量和第一类别的词向量,分别计算所述每个词语与所述第一类别之间的第一隶属度,所述第一类别为类别集合中的任一类别;
根据所述每个词语与所述第一类别之间的第一隶属度以及所述每个词语的词频、权重和逆文档频率,计算所述文本与所述第一类别之间的第二隶属度;
从所述类别集合中选择与所述文本之间的第二隶属度满足预设条件的类别,将所述选择的类别确定为所述文本的类别。
一种文本分类的装置,所述装置包括:
第一获取模块,用于获取待分类的文本包括的每个词语的词向量、词频、权重和逆文档频率;
第一计算模块,用于根据所述每个词语的词向量和第一类别的词向量,分别计算所述每个词语与所述第一类别之间的第一隶属度,所述第一类别为类别集合中的任一类别;
第二计算模块,用于根据所述每个词语与所述第一类别之间的第一隶属度以及所述每个词语的词频、权重和逆文档频率,计算所述文本与所述第一类别之间的第二隶属度;
分类模块,用于从所述类别集合中选择与所述文本之间的第二隶属度满足预设条件的类别,将所述选择的类别确定为所述文本的类别。
在本发明实施例中,根据待分类的文本包括的每个词语的词向量、词频、权重和逆文档频率和第一类别的词向量,计算该文本与第一类别之间的第二隶属度,第一类别为类别集合中的任一类别,根据与该文本之间的第二隶属度,从类别集合中选择类别;由于本发明在对待分类的文本进行分类时,考虑了该文本包括的每个词语,因此提高了分类的准确性。
附图说明
图1是本发明实施例1提供的一种文本分类的方法流程图;
图2-1是本发明实施例2提供的一种文本分类的方法流程图;
图2-2是本发明实施例2提供的一种生成每个类别的词语集合的示意图;
图3是本发明实施例3提供的一种文本分类的装置结构示意图;
图4是本发明实施例4提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种文本分类的方法,参见图1,其中,该方法包括:
步骤101:获取待分类的文本包括的每个词语的词向量、词频、权重和逆文档频率;
步骤102:根据每个词语的词向量和第一类别的词向量,分别计算每个词语与第一类别之间的第一隶属度,第一类别为类别集合中的任一类别;
步骤103:根据每个词语与第一类别之间的第一隶属度以及每个词语的词频、权重和逆文档频率,计算该文本与第一类别之间的第二隶属度;
步骤104:从类别集合中选择与该文本之间的第二隶属度满足预设条件的类别,将选择的类别确定为该文本的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510364152.4/2.html,转载请声明来源钻瓜专利网。