[发明专利]一种CCMI文本特征选择方法有效
申请号: | 201710831973.3 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107562928B | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 柏文阳;吴海涛;张剡;周嵩 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 32237 江苏圣典律师事务所 | 代理人: | 胡建华;于瀚文<国际申请>=<国际公布> |
地址: | 210023江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种CCMI文本特征选择方法,从预处理过后的语料库中提取所有的特征,构成原始特征集合F;选择改进的χ2统计(IPX2)和改进的互信息(IPMI)并将二者联合作为评估函数,对原始特征集合F中的每个特征计算其评估函数值;对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序,选择最佳数量的特征构成新的特征集合,形成降维后的特征空间V。该方法同时适用于平衡数据集和非平衡数据集,并且能取得不错的分类效果。 | ||
搜索关键词: | 一种 ccmi 文本 特征 选择 方法 | ||
【主权项】:
1.一种CCMI文本特征选择方法,其特征在于,包括以下步骤:/n步骤1,从语料库中提取所有的特征,构成原始特征集合F;/n步骤2,选择改进的χ2统计IPX2和改进的互信息IPMI并将二者联合作为评估函数,对原始特征集合F中的每个特征计算其评估函数值;/n步骤3,对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序,选择前k个特征构成新的特征集合,形成降维后的特征空间V;/n步骤2包括如下步骤:/n步骤2-1,设ci为语料库文本所有类别中的任意一个类别,t为原始特征集合F中的任意一个特征,假定特征t与类别ci相互独立,/n定义M表示训练集中文本的总数,A表示属于类别ci并且出现特征t的文本数,B表示不属于类别ci但出现特征t的文本数,C表示属于类别ci但未出现特征t的文本数,D表示不属于类别ci并且未出现特征t的文本数,M=A+B+C+D,从表1得到特征t出现的概率P(t)为:/n /n文本类别为ci的概率P(ci)为:/n /n在类别ci的文本中出现特征t的概率P(t|ci)为:/n /n步骤2-2,训练集中所有属于类别ci的文本中,出现特征t的理论文本数量E11为:/n /n步骤2-3,所有不属于类别ci的文本中,出现特征t的理论文本数量E12为:/n /n步骤2-4,所有属于类别ci的文本中,未出现特征t的理论文本数量E21为:/n /n步骤2-5,所有不属于类别ci的文本中,未出现特征t的理论文本数量E22为:/n /n步骤2-6,属于类别ci的所有文本中含有特征t的实际文本数和理论文本数的偏离程度D11为:/n /n步骤2-7,不属于类别ci的文本中含有特征t的实际文本数和理论文本数的偏离程度D12为:/n /n步骤2-8,属于类别ci的所有文本中未出现特征t的实际文本数和理论文本数的偏离程度D21为:/n /n步骤2-9,不属于类别ci的所有文本中未出现特征t的实际文本数和理论文本数的偏离程度D22为:/n /n步骤2-10,特征t与类别ci的偏离程度χ2(t,ci)为:/n /n步骤2-11,引入类内频度、集中度、分散度,对公式(12)进行改进,得到特征t的改进的χ2的评估函数IPX2;/n步骤2-12,计算特征t与类别ci之间的统计关联程度,即互信息MI(t,ci);/n步骤2-13,计算特征t在类别间的区分度diff(t,ci,cj);/n步骤2-14,基于区分度diff(t,ci,cj),根据改进的互信息IPMI计算公式计算特征t的互信息IPMI(t);/n步骤2-15,将特征t的改进的χ2的评估函数IPX2和互信息IPMI(t)结合,计算原始特征集合F中的每个特征t的评估函数值CCMI(t);/n步骤2-11中,通过如下公式计算类内频度FI(t,ci):/n /n其中,tfci(t)表示类别ci中,特征t出现的次数;nci表示类别ci中文本总数;/n步骤2-11中,通过如下公式计算集中度CI(t):/n /n其中,ci(t)表示类别ci中含有特征t的文本数量;/n步骤2-11中,通过如下公式计算分散度DI(t):/n /n步骤2-11中,得到特征t对于类别ci的改进的χ2的评估函数IPX2(t,ci)为:/n /n特征t对于整个语料库中所有文本类别的改进的χ2的评估函数IPX2(t)为:/n /n其中,m为整个语料库中所有文本类别数量;/n步骤2-12中,通过如下公式计算特征t与类别ci之间的互信息MI(t,ci):/n /nP(t,ci)表示属于类别ci的文本且出现特征t的概率,其中/nP(t,ci)=P(ci)·P(t|ci) (19);/n步骤2-13中,通过如下公式计算特征t在类别间的区分度diff(t,ci,cj):/ndiff(t,ci,cj)=P(t|ci,cj)·|MI(t,ci)-MI(t,cj)| (20)/n其中,P(t|ci,cj)表示特征t在ci、cj组成的整体中出现的概率,cj表示语料库文本所有类别中的任意一个与类别ci不同的类别;/n步骤2-14中,根据如下改进的互信息IPMI计算公式计算特征t的互信息IPMI(t):/n /n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710831973.3/,转载请声明来源钻瓜专利网。