[发明专利]一种CCMI文本特征选择方法有效

专利信息
申请号: 201710831973.3 申请日: 2017-09-15
公开(公告)号: CN107562928B 公开(公告)日: 2019-11-15
发明(设计)人: 柏文阳;吴海涛;张剡;周嵩 申请(专利权)人: 南京大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 32237 江苏圣典律师事务所 代理人: 胡建华;于瀚文<国际申请>=<国际公布>
地址: 210023江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种CCMI文本特征选择方法,从预处理过后的语料库中提取所有的特征,构成原始特征集合F;选择改进的χ2统计(IPX2)和改进的互信息(IPMI)并将二者联合作为评估函数,对原始特征集合F中的每个特征计算其评估函数值;对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序,选择最佳数量的特征构成新的特征集合,形成降维后的特征空间V。该方法同时适用于平衡数据集和非平衡数据集,并且能取得不错的分类效果。
搜索关键词: 一种 ccmi 文本 特征 选择 方法
【主权项】:
1.一种CCMI文本特征选择方法,其特征在于,包括以下步骤:/n步骤1,从语料库中提取所有的特征,构成原始特征集合F;/n步骤2,选择改进的χ2统计IPX2和改进的互信息IPMI并将二者联合作为评估函数,对原始特征集合F中的每个特征计算其评估函数值;/n步骤3,对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序,选择前k个特征构成新的特征集合,形成降维后的特征空间V;/n步骤2包括如下步骤:/n步骤2-1,设ci为语料库文本所有类别中的任意一个类别,t为原始特征集合F中的任意一个特征,假定特征t与类别ci相互独立,/n定义M表示训练集中文本的总数,A表示属于类别ci并且出现特征t的文本数,B表示不属于类别ci但出现特征t的文本数,C表示属于类别ci但未出现特征t的文本数,D表示不属于类别ci并且未出现特征t的文本数,M=A+B+C+D,从表1得到特征t出现的概率P(t)为:/n /n文本类别为ci的概率P(ci)为:/n /n在类别ci的文本中出现特征t的概率P(t|ci)为:/n /n步骤2-2,训练集中所有属于类别ci的文本中,出现特征t的理论文本数量E11为:/n /n步骤2-3,所有不属于类别ci的文本中,出现特征t的理论文本数量E12为:/n /n步骤2-4,所有属于类别ci的文本中,未出现特征t的理论文本数量E21为:/n /n步骤2-5,所有不属于类别ci的文本中,未出现特征t的理论文本数量E22为:/n /n步骤2-6,属于类别ci的所有文本中含有特征t的实际文本数和理论文本数的偏离程度D11为:/n /n步骤2-7,不属于类别ci的文本中含有特征t的实际文本数和理论文本数的偏离程度D12为:/n /n步骤2-8,属于类别ci的所有文本中未出现特征t的实际文本数和理论文本数的偏离程度D21为:/n /n步骤2-9,不属于类别ci的所有文本中未出现特征t的实际文本数和理论文本数的偏离程度D22为:/n /n步骤2-10,特征t与类别ci的偏离程度χ2(t,ci)为:/n /n步骤2-11,引入类内频度、集中度、分散度,对公式(12)进行改进,得到特征t的改进的χ2的评估函数IPX2;/n步骤2-12,计算特征t与类别ci之间的统计关联程度,即互信息MI(t,ci);/n步骤2-13,计算特征t在类别间的区分度diff(t,ci,cj);/n步骤2-14,基于区分度diff(t,ci,cj),根据改进的互信息IPMI计算公式计算特征t的互信息IPMI(t);/n步骤2-15,将特征t的改进的χ2的评估函数IPX2和互信息IPMI(t)结合,计算原始特征集合F中的每个特征t的评估函数值CCMI(t);/n步骤2-11中,通过如下公式计算类内频度FI(t,ci):/n /n其中,tfci(t)表示类别ci中,特征t出现的次数;nci表示类别ci中文本总数;/n步骤2-11中,通过如下公式计算集中度CI(t):/n /n其中,ci(t)表示类别ci中含有特征t的文本数量;/n步骤2-11中,通过如下公式计算分散度DI(t):/n /n步骤2-11中,得到特征t对于类别ci的改进的χ2的评估函数IPX2(t,ci)为:/n /n特征t对于整个语料库中所有文本类别的改进的χ2的评估函数IPX2(t)为:/n /n其中,m为整个语料库中所有文本类别数量;/n步骤2-12中,通过如下公式计算特征t与类别ci之间的互信息MI(t,ci):/n /nP(t,ci)表示属于类别ci的文本且出现特征t的概率,其中/nP(t,ci)=P(ci)·P(t|ci) (19);/n步骤2-13中,通过如下公式计算特征t在类别间的区分度diff(t,ci,cj):/ndiff(t,ci,cj)=P(t|ci,cj)·|MI(t,ci)-MI(t,cj)| (20)/n其中,P(t|ci,cj)表示特征t在ci、cj组成的整体中出现的概率,cj表示语料库文本所有类别中的任意一个与类别ci不同的类别;/n步骤2-14中,根据如下改进的互信息IPMI计算公式计算特征t的互信息IPMI(t):/n /n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710831973.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top