[发明专利]一种文本分类特征提取方法、分类方法及装置有效

申请号：	201210578378.0	申请日：	2012-12-27
公开（公告）号：	CN103902570B	公开（公告）日：	2018-11-09
发明（设计）人：	李鑫;张延祥	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;熊永强
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类特征提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本分类特征提取方法、分类方法及装置，其中，所述文本分类特征提取方法包括：获取训练集文本的特征词集合；根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长度，确定各特征词的特征评分值；记录特征评分值高于预设分数阈值的特征词，得到所述训练集文本的文本特征集合。采用本发明，可以在得到能够表达文本信息的特征词的情况下，有效地减少特征词的个数，从而方便在对文本进行分类时，减小分类运行时间，减小计算的时间和空间开销，节省计算成本。

技术领域

本发明涉及文本分类领域，尤其涉及一种文本分类特征提取方法、分类方法及装置。

背景技术

随着互联网技术的迅速发展，网络文本的数量呈现爆炸性的增长，如何有效的管理这些文本是当前的热点问题，文本分类作为管理海量数据的关键技术，已得到广泛的应用。

目前采用的基于统计的文本分类方法通过学习已分类的文本，能较好的对新的实例文本进行分类。其中，在对新的实例进行分类的过程中，需要先对实例文本进行分词处理，得到包括若干词语的词语集合，再基于词语集合中的所有词语进行文本分类处理，完成对该实例文本的分类。发明人在实施现有技术时发现，采用上述方式的分类方法在实例文本内容比较多，分词得到的词语的数量比较高的情况下，分类运算性能比较差。

发明内容

本发明实施例所要解决的技术问题在于，提供一种文本分类特征提取方法、分类方法及装置，可提高了分类的性能。

为了解决上述技术问题，本发明实施例提供了一种文本分类特征提取方法，其特征在于，包括：

获取训练集文本的特征词集合；

根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长度，确定各特征词的特征评分值；

记录特征评分值高于预设分数阈值的特征词，得到所述训练集文本的文本特征集合。

其中，所述获取训练集文本的特征词集合包括：

对训练集文本进行分词处理，得到所述训练集文本的词语集合；

删除所述词语集合中的停用词，得到特征词集合，所述词语集合中的停用词包括语气助词和/或人称代词。

其中，所述删除所述词语集合中的停用词，得到特征词集合，包括：

将所述词语集合中各个分词与预设的停用词库中的预置停用词进行比较；

根据比较结果将词语集合中与预置停用词相同的分词删除，得到特征词集合。