[发明专利]一种CCMI文本特征选择方法有效

申请号：	201710831973.3	申请日：	2017-09-15
公开（公告）号：	CN107562928B	公开（公告）日：	2019-11-15
发明（设计）人：	柏文阳;吴海涛;张剡;周嵩	申请（专利权）人：	南京大学
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	32237 江苏圣典律师事务所	代理人：	胡建华;于瀚文<国际申请>=<国际公布>
地址：	210023江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种CCMI文本特征选择方法，从预处理过后的语料库中提取所有的特征，构成原始特征集合F；选择改进的χ²统计(IPX2)和改进的互信息(IPMI)并将二者联合作为评估函数，对原始特征集合F中的每个特征计算其评估函数值；对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序，选择最佳数量的特征构成新的特征集合，形成降维后的特征空间V。该方法同时适用于平衡数据集和非平衡数据集，并且能取得不错的分类效果。
搜索关键词：	一种 ccmi 文本特征选择方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种CCMI文本特征选择方法，其特征在于，包括以下步骤：/n步骤1，从语料库中提取所有的特征，构成原始特征集合F；/n步骤2，选择改进的χ²统计IPX2和改进的互信息IPMI并将二者联合作为评估函数，对原始特征集合F中的每个特征计算其评估函数值；/n步骤3，对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序，选择前k个特征构成新的特征集合，形成降维后的特征空间V；/n步骤2包括如下步骤：/n步骤2-1，设c_i为语料库文本所有类别中的任意一个类别，t为原始特征集合F中的任意一个特征，假定特征t与类别c_i相互独立,/n定义M表示训练集中文本的总数，A表示属于类别c_i并且出现特征t的文本数，B表示不属于类别c_i但出现特征t的文本数，C表示属于类别c_i但未出现特征t的文本数，D表示不属于类别c_i并且未出现特征t的文本数，M＝A+B+C+D，从表1得到特征t出现的概率P(t)为：/n /n文本类别为c_i的概率P(c_i)为：/n /n在类别c_i的文本中出现特征t的概率P(t|c_i)为：/n /n步骤2-2，训练集中所有属于类别c_i的文本中，出现特征t的理论文本数量E₁₁为：/n /n步骤2-3，所有不属于类别c_i的文本中，出现特征t的理论文本数量E₁₂为：/n /n步骤2-4，所有属于类别c_i的文本中，未出现特征t的理论文本数量E₂₁为：/n /n步骤2-5，所有不属于类别c_i的文本中，未出现特征t的理论文本数量E₂₂为：/n /n步骤2-6，属于类别c_i的所有文本中含有特征t的实际文本数和理论文本数的偏离程度D₁₁为：/n /n步骤2-7，不属于类别c_i的文本中含有特征t的实际文本数和理论文本数的偏离程度D₁₂为：/n /n步骤2-8，属于类别c_i的所有文本中未出现特征t的实际文本数和理论文本数的偏离程度D₂₁为：/n /n步骤2-9，不属于类别c_i的所有文本中未出现特征t的实际文本数和理论文本数的偏离程度D₂₂为：/n /n步骤2-10，特征t与类别c_i的偏离程度χ²(t,c_i)为：/n /n步骤2-11，引入类内频度、集中度、分散度，对公式(12)进行改进，得到特征t的改进的χ²的评估函数IPX2；/n步骤2-12，计算特征t与类别c_i之间的统计关联程度，即互信息MI(t,c_i)；/n步骤2-13，计算特征t在类别间的区分度diff(t,c_i,c_j)；/n步骤2-14，基于区分度diff(t,c_i,c_j)，根据改进的互信息IPMI计算公式计算特征t的互信息IPMI(t)；/n步骤2-15，将特征t的改进的χ²的评估函数IPX2和互信息IPMI(t)结合，计算原始特征集合F中的每个特征t的评估函数值CCMI(t)；/n步骤2-11中，通过如下公式计算类内频度FI(t,c_i)：/n /n其中，tf_ci(t)表示类别c_i中，特征t出现的次数；n_ci表示类别c_i中文本总数；/n步骤2-11中，通过如下公式计算集中度CI(t)：/n /n其中，c_i(t)表示类别c_i中含有特征t的文本数量；/n步骤2-11中，通过如下公式计算分散度DI(t)：/n /n步骤2-11中，得到特征t对于类别ci的改进的χ2的评估函数IPX2(t,c_i)为：/n /n特征t对于整个语料库中所有文本类别的改进的χ2的评估函数IPX2(t)为：/n /n其中，m为整个语料库中所有文本类别数量；/n步骤2-12中，通过如下公式计算特征t与类别c_i之间的互信息MI(t,c_i)：/n /nP(t,c_i)表示属于类别c_i的文本且出现特征t的概率，其中/nP(t,c_i)＝P(c_i)·P(t|c_i) (19)；/n步骤2-13中，通过如下公式计算特征t在类别间的区分度diff(t,c_i,c_j)：/ndiff(t,c_i,c_j)＝P(t|c_i,c_j)·|MI(t,c_i)-MI(t,c_j)| (20)/n其中，P(t|c_i,c_j)表示特征t在c_i、c_j组成的整体中出现的概率，c_j表示语料库文本所有类别中的任意一个与类别c_i不同的类别；/n步骤2-14中，根据如下改进的互信息IPMI计算公式计算特征t的互信息IPMI(t)：/n /n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710831973.3/，转载请声明来源钻瓜专利网。

上一篇：基于人脸识别技术的数据展示方法及系统
下一篇：基于大数据分析的威胁资产的排名方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种CCMI文本特征选择方法有效

专利文献下载