[发明专利]IG TF-IDF文本特征向量生成及文本分类方法有效
申请号: | 201811147525.2 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109271517B | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 朱志良;梁洁;李德洋;刘国奇;于海 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李运萍 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | ig tf idf 文本 特征向量 生成 分类 方法 | ||
本发明具体涉及一种IG TF‑IDF文本特征向量生成及文本分类方法,属于文本挖掘和机器学习领域。所述方法包括:1)生成文本特征向量;2)训练分类器;3)评估分类性能;4)对目标文本集进行分类;本发明计算所得权重更能真实的反映不同词条对文本分类的重要程度,使得具有强类别区分能力的词条被分配更大的权重,使得权重计算更加合理,从而提高了文本分类的准确度;而且计算所得词条权重无需知道具体所述类别,克服了TFADF等有监督方法在多类别文本中分类的不足。
技术领域
本发明属于文本挖掘和机器学习领域,具体涉及一种IG TF-IDF文本特征向量生成及文本分类方法。
背景技术
随着互联网时代的到来,文本都以电子文本的方式呈现,导致电子文档的数量急剧增加,因此,如何对海量数据文本进行有效的组织、挖掘变得越来越重要。自动分类就是其中应用最为广泛的技术手段之一。分类是将文本分到预定义的类中,是信息检索和数据挖掘领域的研究热点。一般情况下,将一些具有类别标志的文本作为训练数据,通过机器学习算法获得分类器,然后根据文本内容判断它的类别。在对文本进行分类前,需要将其表示成计算机能够处理的形式,向量空间模型(VSM)是常用的文本表示模型,它以特征项作为文本表示的基本单位,从而将文本表示成空间向量的形式。文本经分词得到的特征维数往往会非常高,可以达到上万,甚至几十万。大多数字词与分类任务无关,可以删除而不影响分类效果,删除不相关字词的过程称为特征选择,特征选择依据特征向量权重计算方法。在分类前进行特征降维,不但降低了计算复杂度,而且提高分类效果。因此,在生成文本特征向量时,词条权重计算方法是否科学决定了文本分类的性能。
常见的特征提取方法有,词频-反文档频率(TF-IDF)、互信息(MI)、信息增益(IG)等。这些评估策略从不同角度度量特征对分类所起的作用。其中,TF-IDF算法基于在信息论中由信息熵证明了其物理含义,因此被广泛运用于文本挖掘中。TF-IDF的主要思想是:如果某个词或者短语在一篇文章中出现的频率高,并且在其它文章中出现较少,则认为该词条有很好的类别区分能力,适合用来分类。而在实际应用中,TF-IDF算法依旧存在缺陷,特别是当运用于文本分类时,自动文本分类需要在余弦已分类的文本集上进行训练学习,然而TF-IDF算法并没有考虑词条出现的文本类别,不能充分反映词条在文本文本分类中的重要性。具体表现在IDF的计算上,比如一个词条集中出现在某一个类中,按照IDF的定义,它具有较小的类别区分能力,而事实并非如此。如果一个词条在一个类的文档中频繁出现,说明该词条能够很好的代表这个类的文本特征,应该给予较高的权重,并选来作为该类文本的词条以区别其它类文档。于是,人们提出了利用词条的类间分布信息和类内分部信息的差异来计算权重的一些新方法,其中典型代表就是TFATF,他利用词条的平均词频类间集中度和文档频类间集中度来计算词条的权重,进而提取合适的词条。然而,TFATF等有监督加权方法所计算的词条权重与具体文本的类别有关,而待分类的新闻本的所述类别是未知的,要么针对所有类别逐一用TFATF算法计算权重,要么采用TF-IDF等传统方法计算权重,前者需要在训练学习时增加额外的统计信息,后者则在分类或测试时增加了计算量。
发明内容
针对上述存在的技术问题,本发明提供一种IG TF-IDF文本特征向量生成及文本分类方法,包括以下步骤:
步骤1:生成文本特征向量:
输入文本集,每个文本集包括若干文本,若干文本按照其文本类别组成若干数据集;基于IG TF-IDF方法,调节选项参数,生成每个文本的特征向量F(Dj);所述IG TF-IDF为信息增益词频-反文档频率,即Information Gain,Term Frequency-Inverse DocumentFrequency;
步骤2:训练分类器:
步骤2.1:将文本集中的特征向量F(Dj)随机分成5等份,选取其中的4份数据组成训练集,剩下的1份作为测试集;
步骤2.2:将训练集输入分类器进行训练,得到训练后的分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811147525.2/2.html,转载请声明来源钻瓜专利网。