[发明专利]一种CCMI文本特征选择方法有效

专利信息
申请号: 201710831973.3 申请日: 2017-09-15
公开(公告)号: CN107562928B 公开(公告)日: 2019-11-15
发明(设计)人: 柏文阳;吴海涛;张剡;周嵩 申请(专利权)人: 南京大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 32237 江苏圣典律师事务所 代理人: 胡建华;于瀚文<国际申请>=<国际公布>
地址: 210023江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 ccmi 文本 特征 选择 方法
【说明书】:

发明公开了一种CCMI文本特征选择方法,从预处理过后的语料库中提取所有的特征,构成原始特征集合F;选择改进的χ2统计(IPX2)和改进的互信息(IPMI)并将二者联合作为评估函数,对原始特征集合F中的每个特征计算其评估函数值;对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序,选择最佳数量的特征构成新的特征集合,形成降维后的特征空间V。该方法同时适用于平衡数据集和非平衡数据集,并且能取得不错的分类效果。

技术领域

本发明属于计算机数据分析与挖掘领域,尤其涉及一种CCMI文本特征选择方法。

背景技术

文本分类领域面临的挑战之一是“维度灾难”问题。语料库较大时,特征维数通常高达上万维甚至几十万维,此时分类器面临的是一个语料库文本数×特征维数的巨大矩阵,在单机下给分类器带来了巨大的运算压力,甚至无法完成运算。同时,如此高维的特征中,包含不少噪声数据,不仅给分类器带来了较高的计算复杂度,也可能给分类效果带来负面影响。所以,尽量移除对分类没有贡献或者贡献极小的特征,是特征降维的关键。

常用的特征选择算法依据其是否使用类别标签,分为两种,一种是无监督的特征权重,典型代表有特征频率(Term Frequency,TF)、文档频率(DocumentFrequency,DF),TF-IDF(Term Frequency-Inverse Document Frequency)等;另一种是有监督的特征权重,典型代表有期望交叉熵(Expected Cross Entropy,ECE)、几率比(Odds Ratio,OR)、信息增益(Information Gain,IG)、χ2统计量(Chi-square)、互信息(Mutual Information,MI)等。研究表明:通常情况下,有监督的特征权重效果优于无监督的特征权重,参见文献1:Batal I,Hauskrecht M.Boosting KNN text classification accuracy by using supervisedterm weighting schemes[C]//Proceedings of the 18th ACM conference onInformation and knowledge management.ACM,2009:2041-2044。同时,将无监督的词频信息加入有监督的特征权重内,也属于有监督的特征权重范畴,如tf×IG,tf×χ2统计,tf×MI等。

目前,针对现有的特征选择算法,国内外的学者已有了不少改进,大致分为两个方向:第一种,将现有的降维算法与其他的降维算法相结合,以期相互扬长避短;第二种,针对目前特征选择算法的固有缺陷,提出改进方案,以达到优化效果。但是面对不同性质、不同规模、不同非平衡度的数据集,目前仍然没有形成统一的评价特征选择算法优劣的标准。文献指出,性能优异的特征选择算法应具有如下特点:选取优质的特征、算法复杂度低,且在低维就可以达到较好的分类性能,适用于不同类型语料库(平衡、非平衡),适用于不同分类器。

发明内容

发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种有效的的文本特征选择方法。

技术方案:基于χ2统计和互信息的CCMI文本特征选择方法,包括以下步骤:

步骤1,从语料库中提取所有的特征,构成原始特征集合F;

步骤2,选择改进的χ2统计IPX2和改进的互信息IPMI并将二者联合作为评估函数,对原始特征集合F中的每个特征计算其评估函数值;

步骤3,对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序,选择前k(k小于原始特征集合F的特征数量)个特征构成新的特征集合,形成降维后的特征空间V。

步骤2包括如下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710831973.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top