[发明专利]一种CCMI文本特征选择方法有效
申请号: | 201710831973.3 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107562928B | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 柏文阳;吴海涛;张剡;周嵩 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 32237 江苏圣典律师事务所 | 代理人: | 胡建华;于瀚文<国际申请>=<国际公布> |
地址: | 210023江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 ccmi 文本 特征 选择 方法 | ||
本发明公开了一种CCMI文本特征选择方法,从预处理过后的语料库中提取所有的特征,构成原始特征集合F;选择改进的χ2统计(IPX2)和改进的互信息(IPMI)并将二者联合作为评估函数,对原始特征集合F中的每个特征计算其评估函数值;对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序,选择最佳数量的特征构成新的特征集合,形成降维后的特征空间V。该方法同时适用于平衡数据集和非平衡数据集,并且能取得不错的分类效果。
技术领域
本发明属于计算机数据分析与挖掘领域,尤其涉及一种CCMI文本特征选择方法。
背景技术
文本分类领域面临的挑战之一是“维度灾难”问题。语料库较大时,特征维数通常高达上万维甚至几十万维,此时分类器面临的是一个语料库文本数×特征维数的巨大矩阵,在单机下给分类器带来了巨大的运算压力,甚至无法完成运算。同时,如此高维的特征中,包含不少噪声数据,不仅给分类器带来了较高的计算复杂度,也可能给分类效果带来负面影响。所以,尽量移除对分类没有贡献或者贡献极小的特征,是特征降维的关键。
常用的特征选择算法依据其是否使用类别标签,分为两种,一种是无监督的特征权重,典型代表有特征频率(Term Frequency,TF)、文档频率(DocumentFrequency,DF),TF-IDF(Term Frequency-Inverse Document Frequency)等;另一种是有监督的特征权重,典型代表有期望交叉熵(Expected Cross Entropy,ECE)、几率比(Odds Ratio,OR)、信息增益(Information Gain,IG)、χ2统计量(Chi-square)、互信息(Mutual Information,MI)等。研究表明:通常情况下,有监督的特征权重效果优于无监督的特征权重,参见文献1:Batal I,Hauskrecht M.Boosting KNN text classification accuracy by using supervisedterm weighting schemes[C]//Proceedings of the 18th ACM conference onInformation and knowledge management.ACM,2009:2041-2044。同时,将无监督的词频信息加入有监督的特征权重内,也属于有监督的特征权重范畴,如tf×IG,tf×χ2统计,tf×MI等。
目前,针对现有的特征选择算法,国内外的学者已有了不少改进,大致分为两个方向:第一种,将现有的降维算法与其他的降维算法相结合,以期相互扬长避短;第二种,针对目前特征选择算法的固有缺陷,提出改进方案,以达到优化效果。但是面对不同性质、不同规模、不同非平衡度的数据集,目前仍然没有形成统一的评价特征选择算法优劣的标准。文献指出,性能优异的特征选择算法应具有如下特点:选取优质的特征、算法复杂度低,且在低维就可以达到较好的分类性能,适用于不同类型语料库(平衡、非平衡),适用于不同分类器。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种有效的的文本特征选择方法。
技术方案:基于χ2统计和互信息的CCMI文本特征选择方法,包括以下步骤:
步骤1,从语料库中提取所有的特征,构成原始特征集合F;
步骤2,选择改进的χ2统计IPX2和改进的互信息IPMI并将二者联合作为评估函数,对原始特征集合F中的每个特征计算其评估函数值;
步骤3,对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序,选择前k(k小于原始特征集合F的特征数量)个特征构成新的特征集合,形成降维后的特征空间V。
步骤2包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710831973.3/2.html,转载请声明来源钻瓜专利网。